efficient attention - NeurIPS 2025

today local_bar

efficient attention

5 papers across 3 sessions

Poster Session 2

Wednesday, December 3, 2025 · 4:30 PM → 7:30 PM

Exhibit Hall C,D,E

MonarchAttention: Zero-Shot Conversion to Fast, Hardware-Aware Structured Attention

#3506 Spotlight · Can Yaras, Alec Xu, Pierre Abillama, Changwoo Lee, Laura Balzano

SageAttention3: Microscaling FP4 Attention for Inference and An Exploration of 8-Bit Training

#3512 Spotlight · Jintao Zhang, Jia wei, Haoxu Wang, Pengle Zhang, Xiaoming Xu, Haofeng Huang, Kai Jiang, Jun Zhu, Jianfei Chen

SageAttention3: Microscaling FP4 Attention for Plug-and-Play Inference Acceleration and An Exploration of 8-Bit Attention for Training.

Poster Session 3

Thursday, December 4, 2025 · 11:00 AM → 2:00 PM

Exhibit Hall C,D,E

FlashBias: Fast Computation of Attention with Bias

#3417 · Haixu Wu, Minghao Guo, Yuezhou Ma, Yuanxu Sun, Jianmin Wang, Wojciech Matusik, Mingsheng Long

This paper presents FlashBias to speed up computation of attention with bias, which brings 1.5x speedup for AlphaFold and 2x speedup for SwinV2.

Poster Session 5

Friday, December 5, 2025 · 11:00 AM → 2:00 PM

Exhibit Hall C,D,E

Spotlight Attention: Towards Efficient LLM Generation via Non-linear Hashing-based KV Cache Retrieval

#5514 · Wenhao Li, Yuxin Zhang, Gen Luo, Haiyuan Wan, Ziyang Gong, Fei Chao, Rongrong Ji

KV cache retrieval for large language models using nonlinear hashing function.

CLEAR: Conv-Like Linearization Revs Pre-Trained Diffusion Transformers Up

#5318 · Songhua Liu, Zhenxiong Tan, Xinchao Wang

We propose a convolution-like linearization strategy that accelerates pre-trained diffusion transformers for ultra-resolution image generation.