Adversarial Examples

2 papers across 2 sessions

Poster Session 3

Thursday, December 4, 2025 · 11:00 AM → 2:00 PM

MixAT: Combining Continuous and Discrete Adversarial Training for LLMs

#1403 · Csaba Dékány, Stefan Balauca, Dimitar I. Dimitrov, Robin Staab, Martin Vechev

We mix discrete and continuous adversarial attacks to adversarially train more robust LLMs. We evaluate our models in different realistic inference settings and show that they are more robust while matching the training cost of other SoTA models.

Poster Session 4

1 paper

Thursday, December 4, 2025 · 4:30 PM → 7:30 PM

Exhibit Hall C,D,E

BlurGuard: A Simple Approach for Robustifying Image Protection Against AI-Powered Editing

#1516 · Jinsu Kim, Yunhun Nam, Minseon Kim, Sangpil Kim, Jongheon Jeong

A surprisingly simple plug-and-play method to strengthen adversarial image protection against diverse purification techniques.