chain-of-though reasoning

1 paper across 1 session

Poster Session 6

Friday, December 5, 2025 · 4:30 PM → 7:30 PM

Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning

#4604 · Yibin Wang, li zhimin, Yuhang Zang, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang

This paper the first unified multimodal CoT-based reward model, capable of multi-dimensional, step-by-step long-chain reasoning for both visual understanding and generation reward tasks.