George Ma

PhD student, University of California, Berkeley

1 paper at NeurIPS 2025

Homepage· OpenReview· Semantic Scholar· Google Scholar

Poster Session 5

1 paper

Friday, December 5, 2025 · 11:00 AM → 2:00 PM

Exhibit Hall C,D,E

Revising and Falsifying Sparse Autoencoder Feature Explanations

#2600 · George Ma, Samuel Pfrommer, Somayeh Sojoudi

We developed new methods to refine and falsify sparse autoencoder feature explanations, yielding higher-quality interpretability of large language models.