reinforcement learning with verifiable rewards

2 papers across 2 sessions

Poster Session 3

Thursday, December 4, 2025 · 11:00 AM → 2:00 PM

RLVR-World: Training World Models with Reinforcement Learning

#3707 · Jialong Wu, Shaofeng Yin, Ningya Feng, Mingsheng Long

We pioneer training world models through reinforcement learning with verifiable rewards (RLVR), demonstrating substantial performance gains on both language- and video-based world models.

Poster Session 6

1 paper

Friday, December 5, 2025 · 4:30 PM → 7:30 PM

Exhibit Hall C,D,E

Learning to Reason under Off-Policy Guidance

#506 · Jianhao Yan, Yafu Li, Zican Hu, Zhi Wang, Ganqu Cui, Xiaoye Qu, Yu Cheng, Yue Zhang