被咬的苹果自我修复：世界模型为何需要为具身智能设立新试金石

构建世界模型——能够预测世界未来状态的AI系统——的竞赛已催生出令人惊叹的视频生成器。Sora、Genie 和 UniSim 等模型能生成逼真的未来帧画面，比如杯子掉落或手伸向某物。但深入审视会发现一个令人不安的模式：这些模型在基础物理推理上频频失败。被咬的苹果自行愈合，掉落的杯子在半空中漂移，球体穿过墙壁——这些并非简单的故障，而是更深层“感知-行动断裂”的症状。在具身智能——即必须在物理世界中行动的机器人——的语境下，这种断裂是致命的。一个能生成4K视频却无法预测推力的后果或遮挡物体永久性的模型，从根本上无法用于规划和操作。

技术深度剖析

核心问题在于世界模型的训练与评估方式。当前大多数模型——无论是基于扩散的（如 Sora）还是自回归的（如 Genie）——都以像素级预测为优化目标。它们学习根据前几帧生成统计上最可能的下一帧，但并未学习世界底层的因果结构。这是一个根本性的架构局限。

因果鸿沟

一个理解物理的世界模型应该能回答反事实问题：“如果我把杯子向左推而不是向右推，它还会掉下来吗？”当前模型做不到。它们是在被动视频数据上训练的——观察世界，而非与之互动。这意味着它们学习的是相关性，而非因果性。例如，模型可能学到杯子靠近桌边时常会掉落，但它并未学到重力是原因。这就导致了“愈合苹果”现象：模型看过大量苹果被咬的视频，但从未见过被咬的苹果*不*愈合的视频，因为在训练数据中，咬痕之后总是苹果被吃掉或丢弃。模型只是插值出最可能的下一帧，即一个完整的苹果。

物体恒存性与遮挡

另一个关键失败是物体恒存性——理解物体在被遮挡时仍然存在。机器人需要这一点来规划行动：如果一个球滚到盒子后面，机器人必须知道它还在那里。当前世界模型在这方面频繁出错。当物体被遮挡时，模型常常“忘记”它，或者幻觉出另一个物体。这是因为模型没有将物体视为持久实体的内部表征；它只有一系列帧。

“漂移的杯子”问题

漂移的杯子——掉落的杯子在半空中横向移动——是物理约束学习失败的体现。模型学到杯子经常水平移动（因为被推动），但并未学到重力是一种恒定的向下加速度。模型将水平运动和垂直运动视为独立，导致物理上不可能的轨迹。

量化鸿沟：基准测试

为了量化这一问题，我们需要一个新的基准。下表比较了现有基准与因果世界模型基准应包含的内容：

| 基准 | 关注点 | 测试因果性？ | 测试物体恒存性？ | 测试物理约束？ | 真实世界机器人可用性评分（1-10） |
|---|---|---|---|---|---|
| PSNR/SSIM（视频质量） | 像素保真度 | 否 | 否 | 否 | 1 |
| FVD（Fréchet视频距离） | 分布相似性 | 否 | 否 | 否 | 2 |
| CLEVRER（视觉推理） | 物体关系 | 部分 | 是 | 否 | 4 |
| PHYRE（物理推理） | 2D物理 | 是 | 否 | 是 | 5 |
| 提议的因果世界模型基准 | 因果预测、遮挡、重力、碰撞 | 是 | 是 | 是 | 9 |

数据要点： 当前基准衡量的是错误的东西。PSNR 和 FVD 完全无法告诉我们一个模型是否能支持机器人规划。新的基准必须测试反事实推理和物理约束满足。

关键参与者与案例研究

多家公司和研究团队正在攻克这一问题，但理念各不相同。

Google DeepMind（Genie, UniSim）

DeepMind 的 Genie 模型是一个在无标签互联网视频上训练的自回归世界模型。它能生成交互式环境，但因缺乏物理准确性而受到批评。在演示中，物体有时会相互穿过。DeepMind 的 UniSim 采取了不同方法，在真实与模拟数据的混合上训练，显示出更好的物理一致性。然而，这两个模型仍然主要根据视觉质量进行评估。

OpenAI（Sora）

Sora 是一个基于扩散的视频生成器，能生成极其逼真的视频。但它并非具身意义上的世界模型——它没有动作条件化的机制。OpenAI 尚未将 Sora 用于机器人领域，内部测试据报也显示出类似的物理失败（物体消失、不自然的运动）。

World Labs（李飞飞的初创公司）

由李飞飞创立的 World Labs 明确专注于构建空间智能——理解3D几何和物理的模型。其方法结合了视频数据和3D场景重建，旨在构建一个能够支持机器人操作的“空间世界模型”。早期结果在物体恒存性和碰撞检测方面显示出潜力。

NVIDIA（Cosmos）

NVIDIA 的 Cosmos 平台是一个专为机器人和自动驾驶汽车设计的世界模型。它在海量驾驶和操作视频数据集上训练，并明确建模动作及其后果。Cosmos 采用基于 Transformer 的架构，并配有一个物理信息损失函数，用于惩罚物理上不可能的轨迹。这是少数明确尝试学习因果结构的模型之一。

| 公司/模型 | 架构 |
|---|---|
| Google DeepMind / Genie | 自回归 Transformer，基于视频帧预测 |
| Google DeepMind / UniSim | 混合训练（真实+模拟），动作条件化 |
| OpenAI / Sora | 扩散模型，无显式动作建模 |
| World Labs / 空间世界模型 | 视频+3D重建，显式几何推理 |
| NVIDIA / Cosmos | Transformer + 物理信息损失函数 |

时间归档

延伸阅读

常见问题

这次模型发布“Bitten Apple Heals: Why World Models Need a New Test for Embodied AI”的核心内容是什么？

The race to build world models—AI systems that can predict future states of the world—has produced stunning video generators. Models like Sora, Genie, and UniSim can generate reali…

从“world model causal understanding benchmark”看，这个模型发布为什么重要？

The core problem lies in how world models are trained and evaluated. Most current models—whether diffusion-based (like Sora) or autoregressive (like Genie)—are optimized for pixel-level prediction. They learn to generate…

围绕“object permanence AI video generation failure”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。