Scale AI - NeurIPS 2025

today local_bar

🏛 Scale AI

4 papers across 3 sessions

Poster Session 2

Wednesday, December 3, 2025 · 4:30 PM → 7:30 PM

Exhibit Hall C,D,E

Why Do Some Language Models Fake Alignment While Others Don't?

#1307 Spotlight · Abhay Sheshadri, John Hughes, Julian Michael, Alex Mallen, Arun Jose, Fabien Roger

We analyze alignment faking propensities in 23 LLMs, and attempt to explain why some LLMs fake alignment and others don't.

Poster Session 3

Thursday, December 4, 2025 · 11:00 AM → 2:00 PM

Exhibit Hall C,D,E

Quantifying Elicitation of Latent Capabilities in Language Models

#3606 · Elizabeth Donoway, Hailey Joren, Arushi Somani, Henry Sleight, Julian Michael, Michael Deweese, John Schulman, Ethan Perez, Fabien Roger, Jan Leike

Poster Session 4

Thursday, December 4, 2025 · 4:30 PM → 7:30 PM

Exhibit Hall C,D,E

AI Debate Aids Assessment of Controversial Claims

#1410 · Salman Rahman, Sheriff Issaka, Ashima Suvarna, Genglin Liu, James Shiffer, jaeyoung lee, Md Rizwan Parvez, Hamid Palangi, Shi Feng, Nanyun Peng, Yejin Choi, Julian Michael, Liwei Jiang, Saadia Gabriel

Debate between AI experts outperforms single-advisor consultancy in helping humans make more accurate factual judgments, especially benefiting those with mainstream beliefs.

Reasoning Gym: Reasoning Environments for Reinforcement Learning with Verifiable Rewards

#403 Spotlight · Zafir Stojanovski, Oliver Stanley, Joe Sharratt, Richard Jones, Abdulhakeem Adefioye, Jean Kaddour, Andreas Köpf