Goodfire - NeurIPS 2025

🏛 Goodfire

3 papers across 2 sessions

Poster Session 3

2 papers

Thursday, December 4, 2025 · 11:00 AM → 2:00 PM

Exhibit Hall C,D,E

Transferring Linear Features Across Language Models With Model Stitching

#1106 Spotlight · Alan Chen, Jack Merullo, Alessandro Stolfo, Ellie Pavlick

Detecting High-Stakes Interactions with Activation Probes

#1112 · Alex McKenzie, Urja Pawar, Phil Blandfort, William Bankes, David Krueger, Ekdeep S Lubana, Dmitrii Krasheninnikov

We train probes on activations to classify high- vs low-stakes scenarios, find they outperform medium-sized fine-tuned LLMs, and consider applications to monitoring.

Poster Session 6

1 paper

Friday, December 5, 2025 · 4:30 PM → 7:30 PM

Exhibit Hall C,D,E

Parameterized Synthetic Text Generation with SimpleStories

#1008 · Lennart Finke, Chandan Sreedhara, Thomas Dooms, Mat Allen, Juan Rodriguez, Noa Nabeshima, Thomas Marshall, Dan Braun

A dataset of millions of diverse synthetic stories, leading to better small language models.