today local_bar

Zhixin Xie

PhD student, Nanyang Technological University

1 paper at NeurIPS 2025

OpenReview· Semantic Scholar· Google Scholar

Poster Session 6

Friday, December 5, 2025 · 4:30 PM → 7:30 PM

Exhibit Hall C,D,E

Attack via Overfitting: 10-shot Benign Fine-tuning to Jailbreak LLMs

#1410 · Zhixin Xie, Xurui Song, Jun Luo

Exploiting the overfitting of LLMs, we use only ten benign QA pairs to fine-tune and jailbreak them.