Canada CIFAR AI Chair (Amii) - NeurIPS 2025

today local_bar

🏛 Canada CIFAR AI Chair (Amii)

1 paper across 1 session

Poster Session 2

Wednesday, December 3, 2025 · 4:30 PM → 7:30 PM

Exhibit Hall C,D,E

ReMA: Learning to Meta-Think for LLMs with Multi-agent Reinforcement Learning

#400 · Ziyu Wan, Yunxiang Li, Xiaoyu Wen, Yan Song, Hanjing Wang, Linyi Yang, Mark Schmidt, Jun Wang, Weinan Zhang, Shuyue Hu, Ying Wen

Training a new reasoning paradigm of LLMs explicitly contains meta-thinking in a multi-agent and multi-turn setting with RL