RLVR - NeurIPS 2025

today local_bar

RLVR

4 papers across 3 sessions

Poster Session 2

Wednesday, December 3, 2025 · 4:30 PM → 7:30 PM

Exhibit Hall C,D,E

BLEUBERI: BLEU is a surprisingly effective reward for instruction following

#4016 · Yapei Chang, Yekyung Kim, Michael Krumdick, Amir Zadeh, Chuan Li, Chris Tanner, Mohit Iyyer

Poster Session 5

Friday, December 5, 2025 · 11:00 AM → 2:00 PM

Exhibit Hall C,D,E

Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards

#306 · Xiaoyuan Liu, Tian Liang, Zhiwei He, Jiahao Xu, Wenxuan Wang, Pinjia He, Zhaopeng Tu, Haitao Mi, Dong Yu

We introduce a RL framework to train LLM's reasoning and self-verification ability simultaneously.

Generalizing Verifiable Instruction Following

#412 · Valentina Pyatkin, Saumya Malik, Victoria Graf, Hamish Ivison, Shengyi Huang, Pradeep Dasigi, Nathan Lambert, Hanna Hajishirzi

How do models generalize to unseen constraints for precise instruction following?

Poster Session 6

Friday, December 5, 2025 · 4:30 PM → 7:30 PM

Exhibit Hall C,D,E

Reinforcement Learning for Reasoning in Large Language Models with One Training Example

#415 · Yiping Wang, Qing Yang, Zhiyuan Zeng, Liliang Ren, Liyuan Liu, Baolin Peng, Hao Cheng, Xuehai He, Kuan Wang, Jianfeng Gao, Weizhu Chen, Shuohang Wang, Simon Du, yelong shen

We only need one example for RLVR on LLMs to achieve significant improvement on math tasks