Tufts University - NeurIPS 2025

today local_bar

🏛 Tufts University

2 papers across 2 sessions

Poster Session 3

Thursday, December 4, 2025 · 11:00 AM → 2:00 PM

Exhibit Hall C,D,E

BAM-ICL: Causal Hijacking In-Context Learning with Budgeted Adversarial Manipulation

#1404 · Rui Chu, Bingyin Zhao, Hanling Jiang, Shuchin Aeron, Yingjie Lao

We propose BAM-ICL, a novel budgeted adversarial manipulation hijacking attack framework for in-context learning.

Poster Session 4

Thursday, December 4, 2025 · 4:30 PM → 7:30 PM

Exhibit Hall C,D,E

Noise Injection Reveals Hidden Capabilities of Sandbagging Language Models

#1517 · Cameron Tice, Philipp Kreer, Nathan Helm-Burger, Prithviraj Shahani, Fedor Ryzhenkov, Fabien Roger, Clement Neo, Jacob Haimes, Felix Hofstätter, Teun van der Weij

We introduce a novel method leveraging noise injection as a tool to elicit the latent capabilities of sandbagging LLMs.