Visual grounding

2 papers across 2 sessions

Poster Session 5

Friday, December 5, 2025 · 11:00 AM → 2:00 PM

MedSG-Bench: A Benchmark for Medical Image Sequences Grounding

#4510 Spotlight · Jingkun Yue, Siqi Zhang, Zinan Jia, Huihuan Xu, Zongbo Han, Xiaohong Liu, Guangyu Wang

We present MedSG-Bench, the first benchmark for medical image sequence grounding, and introduce MedSG-188K and MedSeq-Grounder to facilitate future research in medical sequencial grounding and reasoning.

Poster Session 6

1 paper

Friday, December 5, 2025 · 4:30 PM → 7:30 PM

Exhibit Hall C,D,E

Grounded Reinforcement Learning for Visual Reasoning

#4417 · Gabriel Sarch, Snigdha Saha, Naitik Khandelwal, Ayush Jain, Michael Tarr, Aviral Kumar, Katerina Fragkiadaki

ViGoRL is a vision-language model trained with reinforcement learning to ground each reasoning step in image coordinates, improving performance on spatial and web-based reasoning tasks through better attention and visual verification.