preference

2 papers across 2 sessions

Poster Session 1

Wednesday, December 3, 2025 · 11:00 AM → 2:00 PM

Efficient and Near-Optimal Algorithm for Contextual Dueling Bandits with Offline Regression Oracles

We design the first efficient, near-optimal regret algorithm for contextual dueling bandits using offline oracles, enabling scalable preference-based learning in RLHF and resolving a key open problem in AI alignment.

Poster Session 2

1 paper

Wednesday, December 3, 2025 · 4:30 PM → 7:30 PM

Exhibit Hall C,D,E

HelpSteer3-Preference: Open Human-Annotated Preference Data across Diverse Tasks and Languages

#116 · Zhilin Wang, Jiaqi Zeng, Olivier Delalleau, Hoo-Chang Shin, Felipe Soares, Alexander Bukharin, Ellie Evans, Yi Dong, Oleksii Kuchaiev

We release an open human-annotated preference dataset with 40 thousand samples spanning General, STEM, Code and Multilingual Samples, which can be used to train SOTA Reward Models on RM-Bench and JudgeBench