Rakuten, Singapore - NeurIPS 2025

🏛 Rakuten, Singapore

1 paper across 1 session

Poster Session 1

Wednesday, December 3, 2025 · 11:00 AM → 2:00 PM

CPPO: Accelerating the Training of Group Relative Policy Optimization-Based Reasoning Models

#515 · Zhihang Lin, Mingbao Lin, Yuan Xie, Rongrong Ji

This paper introduces Completion Pruning Policy Optimization (CPPO) to accelerate the training of reasoning models based on Group Relative Policy Optimization (GRPO).