Parallelism

2 papers across 2 sessions

Poster Session 1

Wednesday, December 3, 2025 · 11:00 AM → 2:00 PM

Communication-Efficient Diffusion Denoising Parallelization via Reuse-then-Predict Mechanism

#4110 · Kunyun Wang, Bohan Li, Kai Yu, Minyi Guo, Jieru Zhao

We propose ParaStep, a step-wise parallelization method based on a reuse-then-predict mechanism that parallelizes diffusion inference by exploiting adjacent-step similarity, reducing latency with minimal quality loss.

Poster Session 6

1 paper

Friday, December 5, 2025 · 4:30 PM → 7:30 PM

Exhibit Hall C,D,E

First Attentions Last: Better Exploiting First Attentions for Efficient Parallel Training

#810 · Gyudong Kim, Hyukju Na, Jin Hyeon Kim, Hyunsung Jang, Jaemin Park, Jaegi Hwang, NAMKOO HA, Seungryong Kim, Young Geun Kim

New Transformer architectures, FAL and FAL+, reuse the first attention output carefully —FAL cuts TP communication for up to 44% faster training, while FAL+ improves perplexity.