today local_bar

Cameron Tice

MS student, University of Cambridge

2 papers at NeurIPS 2025

OpenReview· Semantic Scholar· Google Scholar

Poster Session 4

Thursday, December 4, 2025 · 4:30 PM → 7:30 PM

Exhibit Hall C,D,E

Noise Injection Reveals Hidden Capabilities of Sandbagging Language Models

#1517 · Cameron Tice, Philipp Alexander Kreer, Nathan Helm-Burger, Prithviraj Singh Shahani, Fedor Ryzhenkov, Fabien Roger, Clement Neo, Jacob Haimes, Felix Hofstätter, Teun van der Weij

We introduce a novel method leveraging noise injection as a tool to elicit the latent capabilities of sandbagging LLMs.

Poster Session 5

Friday, December 5, 2025 · 11:00 AM → 2:00 PM

Exhibit Hall C,D,E

Large language models can learn and generalize steganographic chain-of-thought under process supervision

#1008 · Robert McCarthy, Joey SKAF, Luis Ibanez-Lissen, Vasil Georgiev, Connor Watts, Hannes Whittingham, Lorena Gonzalez-Manzano, Cameron Tice, Edward James Young, Puria Radmard, David Lindner

We show that penalizing certain CoT reasoning makes LLMs learn encoding schemes that generalize to unseen examples.