computer use agents - NeurIPS 2025

today local_bar

computer use agents

1 paper across 1 session

Poster Session 2

Wednesday, December 3, 2025 · 4:30 PM → 7:30 PM

Exhibit Hall C,D,E

OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents

#1312 Spotlight · Thomas Kuntz, Agatha Duzan, Hao Zhao, Francesco Croce, Zico Kolter, Nicolas Flammarion, Maksym Andriushchenko

We introduce a benchmark to measure safety of general computer use agents across diverse categories of harm