token compression

6 papers across 3 sessions

Poster Session 1

3 papers

Wednesday, December 3, 2025 · 11:00 AM → 2:00 PM

Exhibit Hall C,D,E

Compress & Cache: Vision token compression for efficient generation and retrieval

#902 · Adrian Bulat, Yassine Ouali, Georgios Tzimiropoulos

Vision-centric Token Compression in Large Language Model

#4916 Spotlight · Ling Xing, Alex Jinpeng Wang, Rui Yan, Xiangbo Shu, Jinhui Tang

We present a vision-centric token compression in LLM, inspired by human selective reading strategy.

The Overthinker's DIET: Cutting Token Calories with DIfficulty-AwarE Training

#4104 · Weize Chen, Jiarui yuan, Jin Tailin, Ning Ding, Huimin Chen, Zhiyuan Liu, Maosong Sun

DIET makes LLMs more token-efficient by using problem difficulty to dynamically guide compression during reinforcement learning, boosting reasoning performance and enabling superior inference scaling under fixed budgets.

Poster Session 3

1 paper

Thursday, December 4, 2025 · 11:00 AM → 2:00 PM

Exhibit Hall C,D,E

VCM: Vision Concept Modeling with Adaptive Vision Token Compression via Instruction Fine-Tuning

#5414 · Run Luo, Renke Shan, Longze Chen, Ziqiang Liu, Lu Wang, Min Yang, Xiaobo Xia

Poster Session 5

2 papers

Friday, December 5, 2025 · 11:00 AM → 2:00 PM

Exhibit Hall C,D,E

Efficient Multi-modal Large Language Models via Progressive Consistency Distillation

#3714 · Zichen Wen, Shaobo Wang, Yufa Zhou, Junyuan Zhang, Qintong Zhang, Yifeng Gao, Zhaorun Chen, Bin Wang, Weijia Li, Conghui He, Linfeng Zhang

We propose a progressive consistency distillation framework that enhances the efficiency of MLLMs by significantly reducing computational cost while preserving strong performance.

HoliTom: Holistic Token Merging for Fast Video Large Language Models

#4607 · Kele Shao, Keda TAO, Can Qin, Haoxuan You, Yang Sui, Huan Wang

HoliTom introduces a training-free holistic outer-inner token merging framework for video LLMs, significantly accelerating inference with negligible performance degradation.