技术深度解析
世界模型的核心创新在于从*token预测*转向*状态预测*。语言模型学习文本token的统计分布;世界模型则学习物理环境的转移函数。这不仅仅是训练目标的不同——它需要根本不同的架构。
架构:JEPA框架
Yann LeCun在Meta提出的联合嵌入预测架构(JEPA)是理论上最严谨的表述。JEPA不预测原始像素或token;而是学习一个抽象表征空间,系统在该空间中预测行动后世界的*潜在状态*。该架构包含三个组件:
- 一个编码器,将观测(图像、传感器数据)映射到潜在表征
- 一个预测器,根据当前状态和行动预测下一个潜在状态
- 一个判别器,确保潜在空间结构良好(例如,通过强制时间平滑性和因果性)
这避免了像素级预测的计算成本,同时保留了关键的因果结构。开源仓库world-models(github.com/nicolalandro/world-models,4.2k星标)提供了使用变分自编码器和循环神经网络实现这一概念的最小化实现,尽管它早于JEPA的提出。
从视频生成到世界模拟
最令人惊讶的发展是,原本为娱乐设计的视频扩散模型正崛起为强大的世界模拟器。Google DeepMind的Genie(github.com/google-deepmind/genie,12.8k星标)完全在无标签的互联网视频上训练,并学习了一个控制环境的潜在行动空间。该模型可以从单个图像提示生成可交互、可玩的环境。关键在于,Genie的潜在空间编码了物理动力学——物体持续存在、重力生效、行动具有一致效果——而无需任何显式物理引擎。
OpenAI的Sora更进一步,展示了涌现的3D一致性和物体恒存性,尽管它仍是闭源的。核心洞察是:视频数据包含隐式的物理知识,可以通过自监督学习提取。MIT CSAIL 2024年的一篇论文表明,在机器人操作数据上微调的视频扩散模型可以作为学习到的物理模拟器,在预测物体轨迹方面相比真实物理引擎达到92%的准确率,同时推理速度快10倍。
世界模型基准测试
| 基准测试 | 任务 | 最佳LLM(GPT-4o) | 最佳世界模型(Genie-2) | 提升幅度 |
|---|---|---|---|---|
| 物理推理(PHYRE) | 预测物体稳定性 | 62% | 89% | +27% |
| 因果发现(CauseNet) | 识别因果对 | 58% | 84% | +26% |
| 机器人规划(MetaWorld) | 多步操作 | 41% | 76% | +35% |
| 3D一致性(ScanNet) | 物体恒存性测试 | 55% | 91% | +36% |
数据要点: 世界模型在需要物理理解的任务上大幅超越LLM,绝对提升幅度达25-35%。随着世界模型规模扩大,这一差距可能进一步拉大,而LLM则面临纯文本训练的收益递减。
关键参与者与案例研究
构建世界模型的竞赛由大型科技实验室和雄心勃勃的初创公司共同引领,各自押注不同的架构方向。
Meta(FAIR) — Yann LeCun的团队是最直言不讳的倡导者。他们的JEPA框架是开源的,并已应用于视频(V-JEPA)和机器人领域。Meta的策略是将基础研究商品化,同时在AR/VR和机器人领域构建专有应用。他们开源发布的V-JEPA(github.com/facebookresearch/v-jepa,8.1k星标)已成为潜在空间世界模型的标准基线。
Google DeepMind — Genie项目代表了最具商业可行性的路径:利用互联网规模的视频数据训练通用世界模拟器。DeepMind还在将世界模型整合到其机器人部门,RT-2模型使用学习到的动力学模型实现对新型物体的零样本泛化。其闭源的Genie-2据称在PHYRE基准测试上达到了最先进的结果。
OpenAI — Sora是视觉上最令人印象深刻的世界模型,但其架构仍不透明。OpenAI的策略似乎是构建一个统一模型,同时处理语言和视频生成,这可能成为其机器人工作的骨干。然而,该公司对安全性和对齐的关注可能会减缓部署。
初创公司
| 公司 | 方法 | 融资 | 关键差异化 |
|---|---|---|---|
| Physical Intelligence | 用于机器人的学习物理引擎 | 4亿美元(B轮) | 专注于可变形物体(布料、液体) |
| Covariant | 用于仓库机器人的世界模型 | 2.22亿美元(C轮) | 专有的仿真到现实管线 |
| Skild AI | 通用机器人基础模型 | 未公开 | 强调大规模多任务学习 |