CCA - NeurIPS 2025

CCA

1 paper across 1 session

Poster Session 6

Friday, December 5, 2025 · 4:30 PM → 7:30 PM

Efficient Large Language Model Inference with Neural Block Linearization

#3505 · Mete Erdogan, Francesco Tonin, Volkan Cevher

We propose to replace self-attention layers with linear estimators through the derived CCA error bound, achieving inference speedups with favorable accuracy trade-off.