crosscoder

1 paper across 1 session

Poster Session 4

Thursday, December 4, 2025 · 4:30 PM → 7:30 PM

Overcoming Sparsity Artifacts in Crosscoders to Interpret Chat-Tuning

#1014 · Julian Minder, Clément Dumas, Caden Juang, Bilal Chughtai, Neel Nanda

Using crosscoders (SAE variant) for chat-tuning concept identification, we diagnose spurious chat-only concepts arising from L1 loss artifacts and show BatchTopK robustly reveals genuine, interpretable ones.