Decode - NeurIPS 2025

today local_bar

Decode

1 paper across 1 session

Poster Session 6

Friday, December 5, 2025 · 4:30 PM → 7:30 PM

Exhibit Hall C,D,E

Twilight: Adaptive Attention Sparsity with Hierarchical Top-

p

#3509 Spotlight · Chaofan Lin, Jiaming Tang, Shuo Yang, Hanshuo Wang, Tian Tang, Boyu Tian, Ion Stoica, Song Han, Mingyu Gao

We propose a method which exploit KV cache sparsity efficiently and dynamically through Top-P sampling.