James R. Glass

Principal Researcher, Massachusetts Institute of Technology

3 papers at NeurIPS 2025

Homepage· OpenReview· Semantic Scholar· Google Scholar

Poster Session 1

Wednesday, December 3, 2025 · 11:00 AM → 2:00 PM

Can Diffusion Models Disentangle? A Theoretical Perspective

#3102 · Liming Wang, Muhammad Jehanzeb Mirza, Yishu Gong, Yuan Gong, Jiaqi Zhang, Brian H. Tracey, Katerina Placek, Marco Vilela, James R. Glass

Meta CLIP 2: A Worldwide Scaling Recipe

#4913 Spotlight · Yung-Sung Chuang, Yang Li, Dong Wang, Ching-Feng Yeh, Kehan Lyu, Ramya Raghavendra, James R. Glass, LIFEI HUANG, Jason E Weston, Luke Zettlemoyer, Xinlei Chen, Zhuang Liu, Saining Xie, Wen-tau Yih, Shang-Wen Li, Hu Xu

We generalize CLIP training to worldwide web-scale, with +0.8% better than English only counterpart on zero-shot ImageNet classification (no compromise), SoTA on zero-shot multilingual: 57.4% on CVQA and 50.2% on Babel-ImageNet.

Poster Session 4

1 paper

Thursday, December 4, 2025 · 4:30 PM → 7:30 PM

Exhibit Hall C,D,E

ROVER: Recursive Reasoning Over Videos with Vision-Language Models for Embodied Tasks

#4711 · Philip Schroeder, Ondrej Biza, Thomas Weng, Hongyin Luo, James R. Glass

We introduce ROVER, a recursive framework that improves the video reasoning accuracy and efficiency of vision-language models in embodied settings.