技术深度解析
该领域的核心创新在于将两种此前截然不同的生成范式——自回归(AR)模型与扩散模型——进行融合。
自回归模型: 传统上用于NLP(如GPT),AR模型根据所有先前token预测序列中的下一个token。对于视频而言,“token”通常是离散视觉token(来自VQ-VAE或VQ-GAN编码器)或连续潜在表示。其优势在于能够建模长程时间依赖和因果结构——这对于必须理解因果关系(例如,球撞到墙会反弹)的世界模型至关重要。然而,纯AR模型在长序列上存在误差累积问题,且在推理时计算成本较高。
扩散模型: 这类模型(如Stable Video Diffusion、Sora)学习逆转一个加噪过程,从随机噪声生成高质量帧。它们在生成视觉连贯且多样化的输出方面表现出色,但通常是非因果的,难以实现世界建模所需的精确时间控制和长期一致性。
AR扩散混合模型: 这种融合通过使用自回归框架建模时间动态,同时利用扩散(通常在潜在空间中)生成每一帧或一小块帧。典型架构如下:
1. 视频编码器: 一个3D VAE或基于ViT的编码器将原始视频压缩为一系列潜在token(例如,每帧16x16的块)。
2. 因果Transformer: 一个自回归Transformer处理潜在token序列,每一步都基于之前的token进行条件化。该Transformer学习“物理规律”——场景如何演变。
3. 扩散解码器: AR Transformer不直接预测下一个token的精确值(这对高维视觉数据来说很困难),而是预测扩散过程的参数(例如,噪声调度表的均值和方差)。解码器随后通过少量去噪步骤采样下一个潜在token。
4. 视频解码器: 将采样得到的潜在token解码回像素空间。
仓库中的关键开源实现:
- 'world-models' (by google-deepmind): 原始的DreamerV3及相关仓库。虽不完全是AR扩散,但为世界模型奠定了基础。
- 'VideoPoet' (by google-research): 一个用于视频生成的大语言模型,采用视频token的AR预测。该仓库包含训练和推理代码。
- 'cosmos-predict1' (by NVIDIA): 一个基于扩散的物理AI世界模型。该仓库(cosmos-predict1)已获得超过5000颗星,并提供了用于驾驶和机器人领域的预训练模型。
- 'Mamba' (by state-spaces): 虽非视频专用,但基于Mamba的架构正被探索作为Transformer在AR视频建模中的替代方案,因其具有线性时间复杂度。
基准对比:
| 模型 | 类型 | FVD(弗雷歇视频距离)↓ | 时间一致性(CLIP分数)↑ | 推理速度(帧/秒) | 参数量 |
|---|---|---|---|---|---|
| Sora (OpenAI) | 纯扩散 | ~35 | 0.92 | 0.5(估计) | ~3B(估计) |
| VideoPoet (Google) | AR + 扩散 | ~42 | 0.89 | 1.2 | 2.7B |
| Genie (Google DeepMind) | AR + 潜在扩散 | ~48 | 0.85 | 0.8 | 1.1B |
| Cosmos-Predict1 (NVIDIA) | 纯扩散 | ~38 | 0.91 | 2.0 | 4B |
| Open-Sora-Plan (社区) | 纯扩散 | ~55 | 0.80 | 3.5 | 1.5B |
数据要点: AR扩散模型(VideoPoet、Genie)目前在视觉质量(FVD)上落后于纯扩散模型(Sora、Cosmos),但在时间一致性上表现出竞争力。其关键优势在于因果结构,这对交互式世界模型(例如,在环境中行动的机器人)至关重要。推理速度的权衡也很显著——AR模型因顺序解码而较慢。
关键玩家与案例研究
1. Google DeepMind (Genie): 'Genie'项目是AR扩散世界模型最突出的例子。它从互联网视频中学习潜在动作空间,无需任何动作标签。该模型使用因果Transformer,基于潜在动作条件预测未来帧,并采用扩散解码器进行帧生成。Genie能够从单张图像生成可交互的2D平台游戏。其局限性在于2D领域和有限的分辨率(160x256)。
2. Meta (V-JEPA): Meta的视频联合嵌入预测架构(V-JEPA)是一个非生成式世界模型,通过预测视频空间中的掩码区域来学习视觉表示。虽然不具生成性,但它是表示学习领域的强劲竞争者。Meta已开源V-JEPA模型,在视频理解任务上达到了最先进水平。
3. NVIDIA (Cosmos): Cosmos是一系列专注于物理AI——机器人和自动驾驶——的世界基础模型。它采用基于扩散的方法,但融入了时间条件化。Cosmos-Predict1能够基于过去帧生成未来帧,并