today local_bar

Qing Yang

MS student, University of Southern California

1 paper at NeurIPS 2025

OpenReview· Semantic Scholar· Google Scholar

Poster Session 6

Friday, December 5, 2025 · 4:30 PM → 7:30 PM

Exhibit Hall C,D,E

Reinforcement Learning for Reasoning in Large Language Models with One Training Example

#415 · Yiping Wang, Qing Yang, Zhiyuan Zeng, Liliang Ren, Liyuan Liu, Baolin Peng, Hao Cheng, Xuehai He, Kuan Wang, Jianfeng Gao, Weizhu Chen, Shuohang Wang, Simon Shaolei Du, yelong shen

We only need one example for RLVR on LLMs to achieve significant improvement on math tasks