harmful fine-tuning

2 papers across 2 sessions

Poster Session 1

Wednesday, December 3, 2025 · 11:00 AM → 2:00 PM

Panacea: Mitigating Harmful Fine-tuning for Large Language Models via Post-fine-tuning Perturbation

#1204 · Yibo Wang, Tiansheng Huang, Li Shen, Huanjin Yao, Haotian Luo, Rui Liu, Naiqiang Tan, Jiaxing Huang, Dacheng Tao

This paper proposes Panacea, a post-fine-tuning method that mitigates harmful fine-tuning in large language models, maintaining safety alignment without sacrificing performance across different tasks and models.

Poster Session 4

1 paper

Thursday, December 4, 2025 · 4:30 PM → 7:30 PM

Exhibit Hall C,D,E

Fundamental Limitations in Pointwise Defences of LLM Finetuning APIs

#5401 · Xander Davies, Eric Winsor, Alexandra Souly, Tomek Korbak, Robert Kirk, Christian Schroeder de Witt, Yarin Gal

Defences against LLM misuse fine-tuning attacks that aim to detect individual malicious or suspicious samples are insufficient.