today local_bar

Marc G Bellemare

Adjunct Professor, Université de Montréal

2 papers at NeurIPS 2025

Homepage· OpenReview· Semantic Scholar· Google Scholar

Poster Session 5

Friday, December 5, 2025 · 11:00 AM → 2:00 PM

Exhibit Hall C,D,E

Tapered Off-Policy REINFORCE - Stable and efficient reinforcement learning for large language models

#206 · Nicolas Le Roux, Marc G Bellemare, Jonathan Lebensold, Arnaud Bergeron, Joshua Greaves, Alexandre Fréchette, Carolyne Pelletier, Eric Thibodeau-Laufer, Sándor Tóth, Sam Work

A simple general purpose off-policy REINFORCE method which outperforms PPO, DPO and STaR on recent benchmarks.

Poster Session 6

Friday, December 5, 2025 · 4:30 PM → 7:30 PM

Exhibit Hall C,D,E

Convergence Theorems for Entropy-Regularized and Distributional Reinforcement Learning

#3107 · Yash Jhaveri, Harley Wiltzer, Patrick Shafto, Marc G Bellemare, David Meger

We present a theoretical framework for policy convergence in RL, which permits convergence of return distribution estimates.