LLM Security

2 papers across 2 sessions

Poster Session 3

Thursday, December 4, 2025 · 11:00 AM → 2:00 PM

VERA: Variational Inference Framework for Jailbreaking Large Language Models

#5300 · Anamika Lochab, Lu Yan, Patrick Pynadath, Xiangyu Zhang, Ruqi Zhang

Reframing black-box LLM jailbreaking as a variational inference problem to efficiently generate diverse and fluent adversarial prompts that outperform traditional genetic methods.

Poster Session 6

1 paper

Friday, December 5, 2025 · 4:30 PM → 7:30 PM

Exhibit Hall C,D,E

Attack via Overfitting: 10-shot Benign Fine-tuning to Jailbreak LLMs

#1410 · Zhixin Xie, Xurui Song, Jun Luo

Exploiting the overfitting of LLMs, we use only ten benign QA pairs to fine-tune and jailbreak them.