Uniform Discrete Diffusion with Metric Path for Video Generation

Arxiv 2025

Haoge Deng ^1,3,5*, Ting Pan ^2,3,5*, Fan Zhang ^5*, Yang Liu ^4,5*, Zhuoyan Luo ⁵, Yufeng Cui ⁵, Wenxuan Wang ⁵, Chunhua Shen ⁴, Shiguang Shan ^2,3, Zhaoxiang Zhang ^1,3†, Xinlong Wang ^5†‡

¹National Laboratory of Pattern Recognition, CASIA

²Key Laboratory of Intelligent Information Processing, ICT, CAS

³University of Chinese Academy of Sciences

⁴Zhejiang University

⁵Beijing Academy of Artificial Intelligence

* Equal contribution, † Corresponding author, ‡ Project leader,

Arxiv Paper Code

Abstract

Continuous-space video generation has advanced rapidly, while discrete approaches lag behind due to error accumulation and long-context inconsistency. In this work, we revisit discrete generative modeling and present Uniform discRete diffuSion with metric pAth (URSA), a simple yet powerful framework that bridges the gap with continuous approaches for the scalable video generation. At its core, URSA formulates the video generation task as an iterative global refinement of discrete spatiotemporal tokens. It integrates two key designs: a Linearized Metric Path and a Resolution-dependent Timestep Shifting mechanism. These designs enable URSA to scale efficiently to high-resolution image synthesis and long-duration video generation, while requiring significantly fewer inference steps. Additionally, we introduce an asynchronous temporal fine-tuning strategy that unifies versatile tasks within a single model, including interpolation and image-to-video generation. Extensive experiments on challenging video and image generation benchmarks demonstrate that URSA consistently outperforms existing discrete methods and achieves performance comparable to state-of-the-art continuous diffusion methods.

Uniform Discrete Diffusion with Metric Path for Video Generation

¹National Laboratory of Pattern Recognition, CASIA

²Key Laboratory of Intelligent Information Processing, ICT, CAS

³University of Chinese Academy of Sciences

⁴Zhejiang University

⁵Beijing Academy of Artificial Intelligence

Abstract

Method

Quantitative Results

Visual Results

Text-to-video Visualization

Image-to-video Visualization

Autoregressive video generation Visualization

Autoregressive video generation Visualization with First-End Frame Conditioning

BibTeX

Uniform Discrete Diffusion with Metric Path for Video Generation

1 National Laboratory of Pattern Recognition, CASIA

2 Key Laboratory of Intelligent Information Processing, ICT, CAS

3 University of Chinese Academy of Sciences

4 Zhejiang University

5 Beijing Academy of Artificial Intelligence

Abstract

Method

Quantitative Results

Visual Results

Text-to-video Visualization

Image-to-video Visualization

Autoregressive video generation Visualization

Autoregressive video generation Visualization with First-End Frame Conditioning

BibTeX

¹National Laboratory of Pattern Recognition, CASIA

²Key Laboratory of Intelligent Information Processing, ICT, CAS

³University of Chinese Academy of Sciences

⁴Zhejiang University

⁵Beijing Academy of Artificial Intelligence