today local_bar

Carolyne Pelletier

MS student, Université de Montréal, Mila - Quebec AI Institute

1 paper at NeurIPS 2025

OpenReview· Semantic Scholar· Google Scholar

Poster Session 5

Friday, December 5, 2025 · 11:00 AM → 2:00 PM

Exhibit Hall C,D,E

Tapered Off-Policy REINFORCE - Stable and efficient reinforcement learning for large language models

#206 · Nicolas Le Roux, Marc G Bellemare, Jonathan Lebensold, Arnaud Bergeron, Joshua Greaves, Alexandre Fréchette, Carolyne Pelletier, Eric Thibodeau-Laufer, Sándor Tóth, Sam Work

A simple general purpose off-policy REINFORCE method which outperforms PPO, DPO and STaR on recent benchmarks.