Junhao Shen

PhD student, Shanghai Jiao Tong University

1 paper at NeurIPS 2025

Homepage· OpenReview· Semantic Scholar· Google Scholar

Poster Session 3

Thursday, December 4, 2025 · 11:00 AM → 2:00 PM

Semi-off-Policy Reinforcement Learning for Vision-Language Slow-Thinking Reasoning

#4907 · Junhao Shen, Haiteng Zhao, Yuzhe Gu, Songyang Gao, Kuikun Liu, Haian Huang, Jianfei Gao, Dahua Lin, Wenwei Zhang, Kai Chen

This paper introduces a simple and scalable semi-off-policy reinforcement learning method, i.e., SOPHIA, to enhance LVLMs’ ability to perform visual slow-thinking reasoning.