Yinpeng Dong

Assistant Professor, Tsinghua University

3 papers at NeurIPS 2025

Homepage· OpenReview· Semantic Scholar· Google Scholar

Poster Session 1

1 paper

Wednesday, December 3, 2025 · 11:00 AM → 2:00 PM

Exhibit Hall C,D,E

DeceptionBench: A Comprehensive Benchmark for AI Deception Behaviors in Real-world Scenarios

#1111 · Yao Huang, Yitong Sun, Yichi Zhang, Ruochen Zhang, Yinpeng Dong, Xingxing Wei

We introduce DeceptionBench, the first comprehensive benchmark evaluating deceptive behaviors in LLMs across real-world scenarios, revealing critical vulnerabilities especially under reinforcement dynamics.

Poster Session 5

1 paper

Friday, December 5, 2025 · 11:00 AM → 2:00 PM

Exhibit Hall C,D,E

Red-Teaming Text-to-Image Systems by Rule-based Preference Modeling

#1201 · Yichuan Cao, Yibo Miao, Xiao-Shan Gao, Yinpeng Dong

We introduce a noval framework for red-teaming black-box T2I systems, termed Rule-based Preference modeling Guided Red-Teaming (RPG-RT).

Poster Session 6

1 paper

Friday, December 5, 2025 · 4:30 PM → 7:30 PM

Exhibit Hall C,D,E

Mitigating Overthinking in Large Reasoning Models via Manifold Steering

#2505 · Yao Huang, Huanran Chen, Shouwei Ruan, Yichi Zhang, Xingxing Wei, Yinpeng Dong

We propose manifold steering that projects the steering direction of model overthinking on the low-dimensional activation manifold, effectively reducing output tokens while maintaining accuracy.