Fan Yang

Senior Principal Researcher, Research, Microsoft

4 papers at NeurIPS 2025

Homepage· OpenReview· Semantic Scholar· Google Scholar

Poster Session 1

1 paper

Wednesday, December 3, 2025 · 11:00 AM → 2:00 PM

Exhibit Hall C,D,E

Reviving DSP for Advanced Theorem Proving in the Era of Reasoning Models

#4319 · Chenrui Cao, Liangcheng Song, Zenan Li, Xinyi Le, Xian Zhang, HUI XUE, Fan Yang

By carefully coordinating off-the-shelf models with inference only, we show the DSP framework can achieve surprisingly good results in theorem proving, comparable to the frontier models with RL-based large-scale training.

Poster Session 5

1 paper

Friday, December 5, 2025 · 11:00 AM → 2:00 PM

Exhibit Hall C,D,E

SeerAttention: Self-distilled Attention Gating for Efficient Long-context Prefilling

#3516 · Yizhao Gao, Zhichen Zeng, DaYou Du, Shijie Cao, Peiyuan Zhou, Jiaxing Qi, Junjie Lai, Hayden Kwok-Hay So, Ting Cao, Fan Yang, Mao Yang

Poster Session 6

2 papers

Friday, December 5, 2025 · 4:30 PM → 7:30 PM

Exhibit Hall C,D,E

rStar-Coder: Scaling Competitive Code Reasoning with a Large-Scale Verified Dataset

#3610 · Yifei Liu, Li Lyna Zhang, Yi Zhu, bingcheng dong, Xudong Zhou, Ning Shang, Fan Yang, Cheng Li, Mao Yang

We introduce rStar-Coder to train advanced code reasoning LLMs, with our 14B model achieving comparable performance to QWQ-32B.

RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval

#3516 · Di Liu, Meng Chen, Baotong Lu, Huiqiang Jiang, Zhenhua Han, Qianxi Zhang, Qi Chen, Chengruidong Zhang, Bailu Ding, Kai Zhang, Chen Chen, Fan Yang, Yuqing Yang, Lili Qiu

RetrievalAttention improves decoding speed and reduces GPU memory usage in Transformer-based LLMs by using pre-built, attention-aware KV vector indexes stored in CPU memory, achieving significant efficiency gains without compromising accuracy.