Robert E. Schapire

researcher, Microsoft Research

1 paper at NeurIPS 2025

Homepage· OpenReview· Semantic Scholar· Google Scholar

Poster Session 1

1 paper

Wednesday, December 3, 2025 · 11:00 AM → 2:00 PM

Exhibit Hall C,D,E

Efficient and Near-Optimal Algorithm for Contextual Dueling Bandits with Offline Regression Oracles

#3205 · Aadirupa Saha, Robert E. Schapire

We design the first efficient, near-optimal regret algorithm for contextual dueling bandits using offline oracles, enabling scalable preference-based learning in RLHF and resolving a key open problem in AI alignment.