Di ZHANG

VP, Kuaishou Technology

6 papers at NeurIPS 2025

OpenReview· Semantic Scholar· Google Scholar

Poster Session 2

Wednesday, December 3, 2025 · 4:30 PM → 7:30 PM

Improving Video Generation with Human Feedback

#4301 · Jie Liu, Gongye Liu, Jiajun Liang, Ziyang Yuan, Xiaokun Liu, Mingwu Zheng, Xiele Wu, Qiulin Wang, Menghan Xia, Xintao Wang, Xiaohong Liu, Fei Yang, Pengfei Wan, Di ZHANG, Kun Gai, Yujiu Yang, Wanli Ouyang

This paper presents a systematic pipeline for improving video generation with human feedback, including a large-scale preference dataset, a video reward model, and three alignment algorithms for flow matching models.

Diffusion Model as a Noise-Aware Latent Reward Model for Step-Level Preference Optimization

#4309 · Tao Zhang, Cheng Da, Kun Ding, Huan Yang, kun jin, Yan Li, Tingting Gao, Di ZHANG, Shiming Xiang, Chunhong Pan

Leveraging the pre-trained diffusion model as a powerful and cost-effective step-level reward model to optimize the diffusion model itself directly in the noisy latent space.

Poster Session 3

2 papers

Thursday, December 4, 2025 · 11:00 AM → 2:00 PM

Exhibit Hall C,D,E

VidEmo: Affective-Tree Reasoning for Emotion-Centric Video Foundation Models

#4911 · Zhicheng Zhang, Weicheng Wang, Yongjie Zhu, Wenyu Qin, Pengfei Wan, Di ZHANG, Jufeng Yang

We present an emotion-centric video foundation model trained with fine-grained captions and rationales via affective-tree reasoning guidance, achieving high-level emotional intelligence for video understanding.

Decoupling Contrastive Decoding: Robust Hallucination Mitigation in Multimodal Large Language Models

#4801 · Wei Chen, Xin Yan, Bin Wen, Fan Yang, Tingting Gao, Di ZHANG, Long Chen

Poster Session 6

2 papers

Friday, December 5, 2025 · 4:30 PM → 7:30 PM

Exhibit Hall C,D,E

Flow-GRPO: Training Flow Matching Models via Online RL

#4208 · Jie Liu, Gongye Liu, Jiajun Liang, Yangguang Li, Jiaheng Liu, Xintao Wang, Pengfei Wan, Di ZHANG, Wanli Ouyang

We propose Flow-GRPO, the first method to integrate online RL into flow matching models, significantly enhancing text-to-image generation performance.

OmniSync: Towards Universal Lip Synchronization via Diffusion Transformers

#4017 Spotlight · Ziqiao Peng, Jiwen Liu, Haoxian Zhang, Xiaoqiang Liu, Songlin Tang, Pengfei Wan, Di ZHANG, Hongyan Liu, Jun He

OmniSync enables universal lip synchronization for diverse visual content using mask-free diffusion with dynamic guidance.