Yoram Bachrach

Researcher, Facebook

2 papers at NeurIPS 2025

Homepage· OpenReview· Semantic Scholar· Google Scholar

Poster Session 4

Thursday, December 4, 2025 · 4:30 PM → 7:30 PM

AI Research Agents for Machine Learning: Search, Exploration, and Generalization in MLE-bench

#2808 Spotlight · Edan Toledo, Karen Hambardzumyan, Martin Josifoski, RISHI HAZRA, Nicolas Baldwin, Alexis Audran-Reiss, Michael Kuchnik, Despoina Magka, Minqi Jiang, Alisia Maria Lupidi, Andrei Lupu, Roberta Raileanu, Tatiana Shavrina, Kelvin Niu, Jean-Christophe Gagnon-Audet, Michael Shvartsman, Shagun Sodhani, Alexander H Miller, Abhishek Charnalia, Derek Dunfield, Carole-Jean Wu, Pontus Stenetorp, Nicola Cancedda, Jakob Nicolaus Foerster, Yoram Bachrach

We develop AI research agents that achieve state-of-the-art performance on real-world Kaggle competitions by searching the space of candidate code solutions.

Poster Session 6

1 paper

Friday, December 5, 2025 · 4:30 PM → 7:30 PM

Exhibit Hall C,D,E

The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements

#3313 · Bingchen Zhao, Despoina Magka, Minqi Jiang, Xian Li, Roberta Raileanu, Tatiana Shavrina, Jean-Christophe Gagnon-Audet, Kelvin Niu, Shagun Sodhani, Michael Shvartsman, Andrei Lupu, Alisia Maria Lupidi, Karen Hambardzumyan, Martin Josifoski, Edan Toledo, Thomas Foster, Lucia Cipolina-Kun, Derek Dunfield, Abhishek Charnalia, Alexander H Miller, Oisin Mac Aodha, Jakob Nicolaus Foerster, Yoram Bachrach

We introduce the Automated LLM Speedrunning benchmark to assess the capabilities of AI agents to reproduce LLM research