today local_bar

Mingyu Gao

Researcher, Shanghai Artificial Intelligence Laboratory

1 paper at NeurIPS 2025

Homepage· OpenReview· Semantic Scholar· Google Scholar

Poster Session 6

Friday, December 5, 2025 · 4:30 PM → 7:30 PM

Exhibit Hall C,D,E

Twilight: Adaptive Attention Sparsity with Hierarchical Top-

p

#3509 Spotlight · Chaofan Lin, Jiaming Tang, Shuo Yang, Hanshuo Wang, Tian Tang, Boyu Tian, Ion Stoica, Song Han, Mingyu Gao

We propose a method which exploit KV cache sparsity efficiently and dynamically through Top-P sampling.