Activation Sparsification

1 paper across 1 session

Poster Session 6

Friday, December 5, 2025 · 4:30 PM → 7:30 PM

VLM in a flash: I/O-Efficient Sparsification of Vision-Language Model via Neuron Chunking

#4519 · Kichang Yang, Seonjun Kim, Minjae Kim, Nairan Zhang, Chi Zhang, Youngki Lee

Neuron Chunking is a hardware-aware sparsification framework that abstracts access patterns into contiguity distributions to couple neuron selection with flash I/O behavior and improve I/O efficiency in VLM inference.