视频世界模型：AR扩散革命如何重塑AI对运动的理解

2026年4月24日 09:33 AINews GitHub April 2026

⭐ 453📈 +102

一个名为“awesome-video-world-models-with-ar-diffusion”的GitHub精选仓库正迅速走红，单日收获超450颗星。它系统梳理了自回归模型与扩散过程在视频预测和生成领域的融合路径，标志着AI理解和模拟物理现实的方式正在发生范式级转变。

由gracezhao1997创建的“awesome-video-world-models-with-ar-diffusion”仓库，已成为AI领域一个快速成熟子方向的首选路线图。它填补了一个关键空白：在自回归（AR）建模与扩散技术交叉用于视频世界模型的研究中，缺乏一个结构化、及时更新的汇编。尽管扩散模型在图像和视频生成领域占据主导地位，AR模型在序列预测（如语言）方面表现出色，但两者在“世界模型”——即从视频中学习内部物理引擎的AI系统——上的融合，是一个具有深远影响的前沿方向。该仓库覆盖了算法、应用和基础设施，汇集了来自顶级会议（NeurIPS、CVPR、ICLR）的论文和开源实现。其爆发式增长反映了业界对这一融合方向的高度关注。

技术深度解析

该领域的核心创新在于将两种此前截然不同的生成范式——自回归（AR）模型与扩散模型——进行融合。

自回归模型： 传统上用于NLP（如GPT），AR模型根据所有先前token预测序列中的下一个token。对于视频而言，“token”通常是离散视觉token（来自VQ-VAE或VQ-GAN编码器）或连续潜在表示。其优势在于能够建模长程时间依赖和因果结构——这对于必须理解因果关系（例如，球撞到墙会反弹）的世界模型至关重要。然而，纯AR模型在长序列上存在误差累积问题，且在推理时计算成本较高。

扩散模型： 这类模型（如Stable Video Diffusion、Sora）学习逆转一个加噪过程，从随机噪声生成高质量帧。它们在生成视觉连贯且多样化的输出方面表现出色，但通常是非因果的，难以实现世界建模所需的精确时间控制和长期一致性。

AR扩散混合模型： 这种融合通过使用自回归框架建模时间动态，同时利用扩散（通常在潜在空间中）生成每一帧或一小块帧。典型架构如下：

1. 视频编码器： 一个3D VAE或基于ViT的编码器将原始视频压缩为一系列潜在token（例如，每帧16x16的块）。
2. 因果Transformer： 一个自回归Transformer处理潜在token序列，每一步都基于之前的token进行条件化。该Transformer学习“物理规律”——场景如何演变。
3. 扩散解码器： AR Transformer不直接预测下一个token的精确值（这对高维视觉数据来说很困难），而是预测扩散过程的参数（例如，噪声调度表的均值和方差）。解码器随后通过少量去噪步骤采样下一个潜在token。
4. 视频解码器： 将采样得到的潜在token解码回像素空间。

仓库中的关键开源实现：
- 'world-models' (by google-deepmind)： 原始的DreamerV3及相关仓库。虽不完全是AR扩散，但为世界模型奠定了基础。
- 'VideoPoet' (by google-research)： 一个用于视频生成的大语言模型，采用视频token的AR预测。该仓库包含训练和推理代码。
- 'cosmos-predict1' (by NVIDIA)： 一个基于扩散的物理AI世界模型。该仓库（cosmos-predict1）已获得超过5000颗星，并提供了用于驾驶和机器人领域的预训练模型。
- 'Mamba' (by state-spaces)： 虽非视频专用，但基于Mamba的架构正被探索作为Transformer在AR视频建模中的替代方案，因其具有线性时间复杂度。

基准对比：

| 模型 | 类型 | FVD（弗雷歇视频距离）↓ | 时间一致性（CLIP分数）↑ | 推理速度（帧/秒） | 参数量 |
|---|---|---|---|---|---|
| Sora (OpenAI) | 纯扩散 | ~35 | 0.92 | 0.5（估计） | ~3B（估计） |
| VideoPoet (Google) | AR + 扩散 | ~42 | 0.89 | 1.2 | 2.7B |
| Genie (Google DeepMind) | AR + 潜在扩散 | ~48 | 0.85 | 0.8 | 1.1B |
| Cosmos-Predict1 (NVIDIA) | 纯扩散 | ~38 | 0.91 | 2.0 | 4B |
| Open-Sora-Plan (社区) | 纯扩散 | ~55 | 0.80 | 3.5 | 1.5B |

数据要点： AR扩散模型（VideoPoet、Genie）目前在视觉质量（FVD）上落后于纯扩散模型（Sora、Cosmos），但在时间一致性上表现出竞争力。其关键优势在于因果结构，这对交互式世界模型（例如，在环境中行动的机器人）至关重要。推理速度的权衡也很显著——AR模型因顺序解码而较慢。

关键玩家与案例研究

1. Google DeepMind (Genie)： 'Genie'项目是AR扩散世界模型最突出的例子。它从互联网视频中学习潜在动作空间，无需任何动作标签。该模型使用因果Transformer，基于潜在动作条件预测未来帧，并采用扩散解码器进行帧生成。Genie能够从单张图像生成可交互的2D平台游戏。其局限性在于2D领域和有限的分辨率（160x256）。

2. Meta (V-JEPA)： Meta的视频联合嵌入预测架构（V-JEPA）是一个非生成式世界模型，通过预测视频空间中的掩码区域来学习视觉表示。虽然不具生成性，但它是表示学习领域的强劲竞争者。Meta已开源V-JEPA模型，在视频理解任务上达到了最先进水平。

3. NVIDIA (Cosmos)： Cosmos是一系列专注于物理AI——机器人和自动驾驶——的世界基础模型。它采用基于扩散的方法，但融入了时间条件化。Cosmos-Predict1能够基于过去帧生成未来帧，并

常见问题

GitHub 热点“Video World Models: The AR Diffusion Revolution Reshaping AI's Understanding of Motion”主要讲了什么？

The 'awesome-video-world-models-with-ar-diffusion' repository, created by gracezhao1997, has emerged as the definitive roadmap for a rapidly maturing subfield of AI. It addresses a…

这个 GitHub 项目在“best video world model open source 2025”上为什么会引发关注？

The core innovation in this space is the marriage of two previously distinct generative paradigms: autoregressive (AR) models and diffusion models. Autoregressive Models: Traditionally used in NLP (e.g., GPT), AR models…

从“AR diffusion model vs diffusion transformer video generation”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 453，近一日增长约为 102，这说明它在开源社区具有较强讨论度和扩散能力。

视频世界模型：AR扩散革命如何重塑AI对运动的理解

技术深度解析

关键玩家与案例研究

更多来自 GitHub

相关专题

时间归档

延伸阅读

常见问题