web benchmarks - NeurIPS 2025

today local_bar

web benchmarks

1 paper across 1 session

Poster Session 2

Wednesday, December 3, 2025 · 4:30 PM → 7:30 PM

Exhibit Hall C,D,E

REAL: Benchmarking Autonomous Agents on Deterministic Simulations of Real Websites

#3602 · Div Garg, Diego Caples, Andis Draguns, Nikil Ravi, Pranav Putta, Naman Garg, Prannay Hebbar, Youngchul Joo, Jindong Gu, Charles London, Christian Schroeder de Witt, Sumeet Motwani

Ultra-realistic benchmark environments and evaluation framework for web agents