LLM evaluation

6 papers across 3 sessions

Poster Session 3

Thursday, December 4, 2025 · 11:00 AM → 2:00 PM

#4109 · Shivalika Singh, Yiyang Nan, Alex Wang, Daniel Dsouza, Sayash Kapoor, Ahmet Üstün, Sanmi Koyejo, Yuntian Deng, Shayne Longpre, Noah Smith, Beyza Ermis, Marzieh Fadaee, Sara Hooker

Chatbot Arena has become a leading platform for ranking AI models. Our extensive study uncovers hidden dynamics that distort rankings and provides concrete steps to enhance fairness and transparency in evaluation of models on Chatbot Arena.

Poster Session 4

2 papers

Thursday, December 4, 2025 · 4:30 PM → 7:30 PM

Exhibit Hall C,D,E

Correlation Dimension of Autoregressive Large Language Models

#2009 · Xin Du, Kumiko Tanaka-Ishii

We propose correlation dimension as a practical, model-agnostic metric that captures structural complexity and detects degeneration in large language model outputs beyond what perplexity reveals.

On Evaluating LLM Alignment by Evaluating LLMs as Judges

#2000 · Yixin Liu, Pengfei Liu, Arman Cohan

Poster Session 6

3 papers

Friday, December 5, 2025 · 4:30 PM → 7:30 PM

Exhibit Hall C,D,E

Any Large Language Model Can Be a Reliable Judge: Debiasing with a Reasoning-based Bias Detector

#3712 · Haoyan Yang, Runxue Bao, Cao (Danica) Xiao, Jun Ma, Parminder Bhatia, Shangqian Gao, Taha Kass-Hout

We propose RBD, a plug-in module that detects and corrects biased LLM evaluations through structured reasoning, significantly improving accuracy, consistency, and scalability across multiple bias types and evaluator models.

Evaluating LLMs in Open-Source Games

#405 · Swadesh Sistla, Max Kleiman-Weiner

ClinicalLab: Aligning Agents for Multi-Departmental Clinical Diagnostics in the Real World

#4911 · Weixiang Yan, Haitian Liu, Tengxiao Wu, Qian Chen, Wen Wang, Haoyuan Chai, Jiayi Wang