ai control - NeurIPS 2025

today local_bar

ai control

3 papers across 3 sessions

Poster Session 3

Thursday, December 4, 2025 · 11:00 AM → 2:00 PM

Exhibit Hall C,D,E

CTRL-ALT-DECEIT Sabotage Evaluations for Automated AI R&D

#1208 Spotlight · Francis Ward, Teun van der Weij, Hanna Gábor, Sam Martin, Raja Moreno, Harel Lidar, Louis Makower, Thomas Jodrell, Lauren Robson

We evaluate frontier LM agents' capabilities to sabotage and sandbag ML engineering tasks without being detected by automated monitors.

Poster Session 4

Thursday, December 4, 2025 · 4:30 PM → 7:30 PM

Exhibit Hall C,D,E

CoT Red-Handed: Stress Testing Chain-of-Thought Monitoring

#1512 · Benjamin Arnav, Pablo Bernabeu-Perez, Nathan Helm-Burger, Timothy H. Kostolansky, Hannes Whittingham, Mary Phuong

Poster Session 5

Friday, December 5, 2025 · 11:00 AM → 2:00 PM

Exhibit Hall C,D,E

Large language models can learn and generalize steganographic chain-of-thought under process supervision

#1008 · ROBERT MC CARTHY, Joey SKAF, Luis Ibanez-Lissen, Vasil Georgiev, Connor Watts, Hannes Whittingham, Lorena Gonzalez-Manzano, Cameron Tice, Edward Young, Puria Radmard, David Lindner

We show that penalizing certain CoT reasoning makes LLMs learn encoding schemes that generalize to unseen examples.