Gradient - NeurIPS 2025

Gradient

1 paper across 1 session

Poster Session 2

Wednesday, December 3, 2025 · 4:30 PM → 7:30 PM

Gradient Multi-Normalization for Efficient LLM Training

#902 · Meyer Scetbon, Chao Ma, Wenbo Gong, Ted Meeds

We introduce a new design principle for LLM matrix optimizers - gradient multi-normalization, unifying previous work, and enabling faster and memory-efficient training of LLMs.