Linear Attention

7 papers across 3 sessions

Poster Session 1

Wednesday, December 3, 2025 · 11:00 AM → 2:00 PM

Alias-Free ViT: Fractional Shift Invariance via Linear Attention

We introduce an alias‑free ViT that combines anti‑aliasing with linear cross‑covariance attention to achieve fractional shift invariance, delivering ~99% consistency to sub‑pixel shifts and stronger translation robustness with competitive accuracy.

Linear Attention for Efficient Bidirectional Sequence Modeling

#3504 · Arshia Afzal, Elias Abad Rocamora, Leyla Candogan, Pol Puigdemont, Francesco Tonin, Yongtao Wu, Mahsa Shoaran, Volkan Cevher

We propose LION, a framework for extending Linear Transformers to the bidirectional setting by providing three theoretically equivalent representations: full attention, bidirectional RNN, and chunkwise parallel form.

Poster Session 2

1 paper

Wednesday, December 3, 2025 · 4:30 PM → 7:30 PM

Exhibit Hall C,D,E

Degrees of Freedom for Linear Attention: Distilling Softmax Attention with Optimal Feature Efficiency

#3513 · Naoki Nishikawa, Rei Higuchi, Taiji Suzuki

Poster Session 3

4 papers

Thursday, December 4, 2025 · 11:00 AM → 2:00 PM

Exhibit Hall C,D,E

ZeCO: Zero-Communication Overhead Sequence Parallelism for Linear Attention

#3507 · Yuhong CHOU, Zehao Liu, Rui-Jie Zhu, Xinyi Wan, Tianjian Li, Congying Chu, Qian Liu, Jibin Wu, Zejun MA

A SoTA sequence parallelism for linear attention with a brand new collective communication.

Tiled Flash Linear Attention: More Efficient Linear RNN and xLSTM Kernels

#3509 · Maximilian Beck, Korbinian Pöppel, Phillip Lippe, Sepp Hochreiter

We introduce TiledFlashLinearAttention a faster kernel algorithm for Linear RNNs and mLSTMs by improved Sequence Parallelism.

DeltaProduct: Improving State-Tracking in Linear RNNs via Householder Products

#3514 · Julien Siems, Timur Carstensen, Arber Zela, Frank Hutter, Massimiliano Pontil, Riccardo Grazzi

We extend DeltaNet by using products of householders as state-transition matrices allowing us to trade-off expressivity and computational complexity.

Fixed-Point RNNs: Interpolating from Diagonal to Dense

#3402 Spotlight · Sajad Movahedi, Felix Sarnthein, Nicola Muca Cirone, Antonio Orvieto

We introduce the Fixed-Point RNN framework to solve state-tracking tasks by parameterizing the state transition matrix as implicitly dense.