MEGVII Technology - NeurIPS 2025

🏛 MEGVII Technology

1 paper across 1 session

Poster Session 1

Wednesday, December 3, 2025 · 11:00 AM → 2:00 PM

Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Generation

#4303 · Zheng Anlin, Xin Wen, Xuanyang Zhang, Chuofan Ma, Tiancai Wang, Gang Yu, Xiangyu Zhang, Xiaojuan Qi

This work utilizes vision foundation models to construct a visual tokenizer, which is trained in an end-to-end manner for AR image generation, achieving state-of-the-art results on the $256\times256$ class-to-image generation task on ImageNet.