Multimodal，Fine-grained alignment，Classification-Based Supervision

1 paper across 1 session

Poster Session 5

Friday, December 5, 2025 · 11:00 AM → 2:00 PM

SuperCLIP: CLIP with Simple Classification Supervision

#5507 · Weiheng Zhao, Zilong Huang, Jiashi Feng, Xinggang Wang

We propose SuperCLIP, a simple and efficient extension to CLIP that adds classfication-based supervision to improve fine-grained image-text alignment without requiring extra annotations or significant computation.