Coding - NeurIPS 2025

today local_bar

Coding

3 papers across 2 sessions

Poster Session 2

Wednesday, December 3, 2025 · 4:30 PM → 7:30 PM

Exhibit Hall C,D,E

MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

#1804 · Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. Jagadish

We introduce a new comprehensive benchmark, MMTU, designed to evaluate models ability to understand, reason, and manipulate diverse tables.

LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?

#2408 · Zihan Zheng, Zerui Cheng, Zeyu Shen, Shang Zhou, Kaiyuan Liu, Hansen He, Dongruixuan Li, Stanley Wei, Hangyi Hao, Jianzhu Yao, Peiyao Sheng, Zixuan Wang, Wenhao Chai, Aleksandra Korolova, Peter Henderson, Sanjeev Arora, Pramod Viswanath, Jingbo Shang, Saining Xie

Poster Session 4

Thursday, December 4, 2025 · 4:30 PM → 7:30 PM

Exhibit Hall C,D,E

ALE-Bench: A Benchmark for Long-Horizon Objective-Driven Algorithm Engineering

#702 · Yuki Imajuku, Kohki Horie, Yoichi Iwata, Kensho Aoki, Naohiro Takahashi, Takuya Akiba

We introduce ALE-bench, a new benchmark for evaluating AI systems on score-based algorithmic programming contests.