today local_bar

Yiping Wang

PhD student, Department of Computer Science, University of Washington

1 paper at NeurIPS 2025

Homepage· OpenReview· Semantic Scholar· Google Scholar

Poster Session 6

Friday, December 5, 2025 · 4:30 PM → 7:30 PM

Exhibit Hall C,D,E

Reinforcement Learning for Reasoning in Large Language Models with One Training Example

#415 · Yiping Wang, Qing Yang, Zhiyuan Zeng, Liliang Ren, Liyuan Liu, Baolin Peng, Hao Cheng, Xuehai He, Kuan Wang, Jianfeng Gao, Weizhu Chen, Shuohang Wang, Simon Shaolei Du, yelong shen

We only need one example for RLVR on LLMs to achieve significant improvement on math tasks