Large language model;Reinforcement learning;Mathematical reasoning - NeurIPS 2025

today local_bar

Large language model;Reinforcement learning;Mathematical reasoning

1 paper across 1 session

Poster Session 6

Friday, December 5, 2025 · 4:30 PM → 7:30 PM

Exhibit Hall C,D,E

KTAE: A Model-Free Algorithm to Key-Tokens Advantage Estimation in Mathematical Reasoning

#1513 · Wei Sun, Wen Yang, Pu Jian, Qianlong Du, Fuwei Cui, Shuo Ren, Jiajun Zhang

A novel algorithm that estimates fine-grained, token-level advantages in reinforcement learning without introducing additional models.