sae - NeurIPS 2025

sae

2 papers across 2 sessions

Poster Session 3

1 paper

Thursday, December 4, 2025 · 11:00 AM → 2:00 PM

Exhibit Hall C,D,E

Dense SAE Latents Are Features, Not Bugs

#1100 · Xiaoqing Sun, Alessandro Stolfo, Joshua Engels, Ben Wu, Senthooran Rajamanoharan, Mrinmaya Sachan, Max Tegmark

Poster Session 4

1 paper

Thursday, December 4, 2025 · 4:30 PM → 7:30 PM

Exhibit Hall C,D,E

Overcoming Sparsity Artifacts in Crosscoders to Interpret Chat-Tuning

#1014 · Julian Minder, Clément Dumas, Caden Juang, Bilal Chughtai, Neel Nanda

Using crosscoders (SAE variant) for chat-tuning concept identification, we diagnose spurious chat-only concepts arising from L1 loss artifacts and show BatchTopK robustly reveals genuine, interpretable ones.