sparse autoencoder

7 papers across 3 sessions

Poster Session 3

1 paper

Thursday, December 4, 2025 · 11:00 AM → 2:00 PM

Exhibit Hall C,D,E

Dense SAE Latents Are Features, Not Bugs

#1100 · Xiaoqing Sun, Alessandro Stolfo, Joshua Engels, Ben Wu, Senthooran Rajamanoharan, Mrinmaya Sachan, Max Tegmark

Poster Session 4

4 papers

Thursday, December 4, 2025 · 4:30 PM → 7:30 PM

Exhibit Hall C,D,E

Overcoming Sparsity Artifacts in Crosscoders to Interpret Chat-Tuning

#1014 · Julian Minder, Clément Dumas, Caden Juang, Bilal Chughtai, Neel Nanda

Using crosscoders (SAE variant) for chat-tuning concept identification, we diagnose spurious chat-only concepts arising from L1 loss artifacts and show BatchTopK robustly reveals genuine, interpretable ones.

ConceptScope: Characterizing Dataset Bias via Disentangled Visual Concepts

#201 · Jinho Choi, Hyesu Lim, Steffen Schneider, Jaegul Choo

Measuring and Guiding Monosemanticity

#3611 Spotlight · Ruben Härle, Felix Friedrich, Manuel Brack, Björn Deiseroth, Stephan Waeldchen, Patrick Schramowski, Kristian Kersting

VL-SAE: Interpreting and Enhancing Vision-Language Alignment with a Unified Concept Set

#4616 · Shufan Shen, Junshu Sun, Qingming Huang, Shuhui Wang

We propose a sparse autoencoder that maps the semantics of vision and language representations into a unified concept set.

Poster Session 5

2 papers

Friday, December 5, 2025 · 11:00 AM → 2:00 PM

Exhibit Hall C,D,E

Interpreting vision transformers via residual replacement model

#1014 · Jinyeong Kim, Junhyeok Kim, Yumin Shim, Joohyeok Kim, Sunyoung Jung, Seong Jae Hwang

Task-Specific Data Selection for Instruction Tuning via Monosemantic Neuronal Activations

#2301 · Da Ma, Gonghu Shang, Zhi Chen, Libo Qin, Yijie LUO, Hongshen Xu, Lei Pan, Shuai Fan, Kai Yu, Lu Chen

We propose a data selection method that leverages sparse, monosemantic neuronal activations learned via a sparse autoencoder to improve task-specific instruction tuning for large language models.