技术深度剖析
核心问题在于世界模型的训练与评估方式。当前大多数模型——无论是基于扩散的(如 Sora)还是自回归的(如 Genie)——都以像素级预测为优化目标。它们学习根据前几帧生成统计上最可能的下一帧,但并未学习世界底层的因果结构。这是一个根本性的架构局限。
因果鸿沟
一个理解物理的世界模型应该能回答反事实问题:“如果我把杯子向左推而不是向右推,它还会掉下来吗?”当前模型做不到。它们是在被动视频数据上训练的——观察世界,而非与之互动。这意味着它们学习的是相关性,而非因果性。例如,模型可能学到杯子靠近桌边时常会掉落,但它并未学到重力是原因。这就导致了“愈合苹果”现象:模型看过大量苹果被咬的视频,但从未见过被咬的苹果*不*愈合的视频,因为在训练数据中,咬痕之后总是苹果被吃掉或丢弃。模型只是插值出最可能的下一帧,即一个完整的苹果。
物体恒存性与遮挡
另一个关键失败是物体恒存性——理解物体在被遮挡时仍然存在。机器人需要这一点来规划行动:如果一个球滚到盒子后面,机器人必须知道它还在那里。当前世界模型在这方面频繁出错。当物体被遮挡时,模型常常“忘记”它,或者幻觉出另一个物体。这是因为模型没有将物体视为持久实体的内部表征;它只有一系列帧。
“漂移的杯子”问题
漂移的杯子——掉落的杯子在半空中横向移动——是物理约束学习失败的体现。模型学到杯子经常水平移动(因为被推动),但并未学到重力是一种恒定的向下加速度。模型将水平运动和垂直运动视为独立,导致物理上不可能的轨迹。
量化鸿沟:基准测试
为了量化这一问题,我们需要一个新的基准。下表比较了现有基准与因果世界模型基准应包含的内容:
| 基准 | 关注点 | 测试因果性? | 测试物体恒存性? | 测试物理约束? | 真实世界机器人可用性评分(1-10) |
|---|---|---|---|---|---|
| PSNR/SSIM(视频质量) | 像素保真度 | 否 | 否 | 否 | 1 |
| FVD(Fréchet视频距离) | 分布相似性 | 否 | 否 | 否 | 2 |
| CLEVRER(视觉推理) | 物体关系 | 部分 | 是 | 否 | 4 |
| PHYRE(物理推理) | 2D物理 | 是 | 否 | 是 | 5 |
| 提议的因果世界模型基准 | 因果预测、遮挡、重力、碰撞 | 是 | 是 | 是 | 9 |
数据要点: 当前基准衡量的是错误的东西。PSNR 和 FVD 完全无法告诉我们一个模型是否能支持机器人规划。新的基准必须测试反事实推理和物理约束满足。
关键参与者与案例研究
多家公司和研究团队正在攻克这一问题,但理念各不相同。
Google DeepMind(Genie, UniSim)
DeepMind 的 Genie 模型是一个在无标签互联网视频上训练的自回归世界模型。它能生成交互式环境,但因缺乏物理准确性而受到批评。在演示中,物体有时会相互穿过。DeepMind 的 UniSim 采取了不同方法,在真实与模拟数据的混合上训练,显示出更好的物理一致性。然而,这两个模型仍然主要根据视觉质量进行评估。
OpenAI(Sora)
Sora 是一个基于扩散的视频生成器,能生成极其逼真的视频。但它并非具身意义上的世界模型——它没有动作条件化的机制。OpenAI 尚未将 Sora 用于机器人领域,内部测试据报也显示出类似的物理失败(物体消失、不自然的运动)。
World Labs(李飞飞的初创公司)
由李飞飞创立的 World Labs 明确专注于构建空间智能——理解3D几何和物理的模型。其方法结合了视频数据和3D场景重建,旨在构建一个能够支持机器人操作的“空间世界模型”。早期结果在物体恒存性和碰撞检测方面显示出潜力。
NVIDIA(Cosmos)
NVIDIA 的 Cosmos 平台是一个专为机器人和自动驾驶汽车设计的世界模型。它在海量驾驶和操作视频数据集上训练,并明确建模动作及其后果。Cosmos 采用基于 Transformer 的架构,并配有一个物理信息损失函数,用于惩罚物理上不可能的轨迹。这是少数明确尝试学习因果结构的模型之一。
| 公司/模型 | 架构 |
|---|---|
| Google DeepMind / Genie | 自回归 Transformer,基于视频帧预测 |
| Google DeepMind / UniSim | 混合训练(真实+模拟),动作条件化 |
| OpenAI / Sora | 扩散模型,无显式动作建模 |
| World Labs / 空间世界模型 | 视频+3D重建,显式几何推理 |
| NVIDIA / Cosmos | Transformer + 物理信息损失函数 |