Honglin Guo

MS student, Fudan University

2 papers at NeurIPS 2025

Homepage· OpenReview· Semantic Scholar· Google Scholar

Poster Session 2

Wednesday, December 3, 2025 · 4:30 PM → 7:30 PM

Pre-Trained Policy Discriminators are General Reward Models

#3416 · Shihan Dou, Shichun Liu, Yuming Yang, Yicheng Zou, Yunhua Zhou, Shuhao Xing, Chenhao Huang, Qiming Ge, haijun Lv, Demin Song, Songyang Gao, Chengqi Lyu, Enyu Zhou, Honglin Guo, Zhiheng Xi, Qipeng Guo, Wenwei Zhang, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang, Kai Chen

we propose a scalable pre-training method named POLicy DiscriminAtive LeaRning (POLAR), which trains a reward model (RM) to discern identical policies and discriminate different ones.

BMMR: A Large-Scale Bilingual Multimodal Multi-Discipline Reasoning Dataset

#5103 · Zhiheng Xi, Guanyu Li, YuTao Fan, Honglin Guo, Yufang Liu, Xiaoran Fan, Jiaqi Liu, dingjinchao, Wangmeng Zuo, Zhenfei Yin, LEI BAI, Tao Ji, Tao Gui, Qi Zhang, Xuanjing Huang