Virtue AI - NeurIPS 2025

🏛 Virtue AI

2 papers across 2 sessions

Poster Session 2

Wednesday, December 3, 2025 · 4:30 PM → 7:30 PM

PolyGuard: Massive Multi-Domain Safety Policy-Grounded Guardrail Dataset

#1308 · Mintong Kang, Zhaorun Chen, Chejian Xu, Jiawei Zhang, Chengquan Guo, Minzhou Pan, Ivan Revilla, Yu Sun, Bo Li

We introduce a policy-grounded guardrail dataset and benchmark SOTA guardrail models, offering novel insights into their capabilities and limitations.

Poster Session 4

1 paper

Thursday, December 4, 2025 · 4:30 PM → 7:30 PM

Exhibit Hall C,D,E

AutoRedTeamer: Autonomous Red Teaming with Lifelong Attack Integration

#903 · Andy Zhou, Kevin Wu, Francesco Pinto, Zhaorun Chen, Yi Zeng, Yu Yang, Shuang Yang, Sanmi Koyejo, James Zou, Bo Li

We propose a LLM agent framework to automate red teaming