cooridinate-free visual grounding

1 paper across 1 session

Poster Session 3

Thursday, December 4, 2025 · 11:00 AM → 2:00 PM

GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents

#3500 · Qianhui Wu, Kanzhi Cheng, Rui Yang, Chaoyun Zhang, Jianwei Yang, Huiqiang Jiang, Jian Mu, Baolin Peng, Bo Qiao, Reuben Tan, Si Qin, Lars Liden, Qingwei Lin, Huan Zhang, Tong Zhang, Jianbing Zhang, Dongmei Zhang, Jianfeng Gao

We propose GUI-Actor, a VLM-based, coordinate-free GUI grounding method with an attention-based action head and verifier, achieving state-of-the-art results and strong generalization.