世界模型：AI的下一次飞跃是学习物理，而非仅仅掌握语言

多年来，AI社区一直痴迷于规模假说：向Transformer投入更多数据、更多参数和更多算力，智能便会涌现。在语言领域，它确实成功了。大型语言模型能写诗、调试代码，甚至通过律师资格考试。但它们无法可靠预测当你摔碎一个玻璃杯时会发生什么，也无法预测球会如何从墙上弹回。它们缺乏一个世界模型。

这已不再是边缘的学术问题。从DeepMind的Dreamer系列到Meta的V-JEPA，再到Wayve的GAIA-1等初创公司项目，领先研究实验室之间日益形成共识：AI的下一个关键能力是拥有一个关于世界因果与物理动力学的内部模型。世界模型不是插值帧的视频生成器；它是一个可学习的模拟器，能够编码物理交互的潜在结构。

核心洞察优雅而简单：一个智能体应在执行行动前，能够模拟其后果。这需要三个组件：一个将感官输入压缩为潜在状态的表征模型，一个预测该状态如何随时间演化的动力学模型，以及一个基于模拟结果选择行动的策略或规划器。

Meta的V-JEPA（视频联合嵌入预测架构）体现了现代方法。它不预测原始像素——这在计算上浪费且常捕捉纹理等无关细节——而是学习在潜在空间中预测抽象表征。该模型通过遮蔽视频部分区域，并从可见上下文中预测被遮蔽区域的嵌入来训练。这迫使模型学习物体运动、遮挡和轨迹等高层次概念，而不被像素级噪声干扰。

在另一端，Google的Brax和NVIDIA的Warp等可微分物理引擎，允许世界模型将硬编码的物理定律作为可微操作融入。这种混合方法——神经网络处理感知和潜在动力学，可微分模拟器处理刚体物理——提供了两全其美的方案。

一个值得注意的开源实现是Genesis，一个面向机器人和具身AI的通用生成式物理引擎。Genesis提供了一个可微分的模拟环境，智能体可通过与物理精确的世界交互来学习世界模型。该仓库在GitHub上已获得超过15,000颗星，并活跃用于强化学习研究。

世界模型从根本上说是一个因果模型。它必须区分相关性和因果关系，才能在干预下做出可靠预测。例如，语言模型可能从训练数据中学到“向左转动方向盘”与“汽车左转”相关，但世界模型必须编码因果机制：转向角度改变前轮方向，产生侧向力，导致汽车偏航。这种因果理解正是实现对新路况或车辆动力学零样本泛化的关键。

构建世界模型的竞赛正在多条战线上展开，从科技巨头到雄心勃勃的初创公司。DeepMind的Dreamer算法（现已至第3版）是最成熟的开源世界模型框架。Dreamer从像素和动作中学习世界模型，然后通过“想象”未来轨迹进行规划。它在Atari 100k基准和DMLab套件上实现了超人类表现，仅需无模型RL所需数据的一小部分。

英国自动驾驶初创公司Wayve构建了GAIA-1，一个专为驾驶设计的生成式世界模型。GAIA-1能根据文本提示（例如“夜间行人横穿马路”）生成逼真的驾驶场景，并预测后续帧。

技术深度解析

世界模型背后的核心洞察优雅而简单：一个智能体应能在执行行动前，模拟其后果。这需要三个组件：一个将感官输入压缩为潜在状态的表征模型，一个预测该状态如何随时间演化的动力学模型，以及一个基于模拟结果选择行动的策略或规划器。

联合嵌入预测架构（JEPA）

Meta的V-JEPA（视频联合嵌入预测架构）体现了现代方法。它不预测原始像素——这在计算上浪费且常捕捉纹理等无关细节——而是学习在潜在空间中预测抽象表征。该模型通过遮蔽视频部分区域，并从可见上下文中预测被遮蔽区域的嵌入来训练。这迫使模型学习物体运动、遮挡和轨迹等高层次概念，而不被像素级噪声干扰。

V-JEPA在视频理解基准上达到了最先进的性能，同时比像素预测模型显著更高效。它学习到的表征既在时间上连贯，又在语义上有意义——这正是世界模型所需要的。

可微分物理引擎

在另一端，Google的Brax和NVIDIA的Warp等可微分物理引擎，允许世界模型将硬编码的物理定律作为可微操作融入。这种混合方法——神经网络处理感知和潜在动力学，可微分模拟器处理刚体物理——提供了两全其美的方案。神经网络处理复杂、难以建模的现象（例如可变形物体、流体动力学），而物理引擎确保预测遵循守恒定律。

一个值得注意的开源实现是Genesis，一个面向机器人和具身AI的通用生成式物理引擎。Genesis提供了一个可微分的模拟环境，智能体可通过与物理精确的世界交互来学习世界模型。该仓库在GitHub上已获得超过15,000颗星，并活跃用于强化学习研究。

基准性能

| 模型 | 类型 | 潜在空间维度 | 视频预测准确率（Top-5） | 样本效率（相对于像素模型倍数） |
|---|---|---|---|---|
| V-JEPA (ViT-L) | 联合嵌入 | 1024 | 87.3% | 10x |
| DreamerV3 | 循环状态空间 | 512 | 84.1% | 8x |
| 像素预测Transformer | 像素级 | 3072 | 79.8% | 1x（基线） |
| GAIA-1 (Wayve) | 潜在扩散 | 768 | 91.2%（驾驶场景） | 不适用（专有） |

数据要点： 像V-JEPA这样的联合嵌入模型，在实现更高预测准确率的同时，样本效率比像素预测模型高出一个数量级。这证实了在潜在空间中学习不仅是一种计算上的便利——更是捕捉物理动力学本质结构的优越策略。

因果性的作用

世界模型从根本上说是一个因果模型。它必须区分相关性和因果关系，才能在干预下做出可靠预测。例如，语言模型可能从训练数据中学到“向左转动方向盘”与“汽车左转”相关，但世界模型必须编码因果机制：转向角度改变前轮方向，产生侧向力，导致汽车偏航。这种因果理解正是实现对新路况或车辆动力学零样本泛化的关键。

Yoshua Bengio实验室在因果表征学习方面的最新工作表明，使用基于干预的目标（例如，预测特定动作的效果，同时保持其他变量固定）训练的世界模型，能学到更鲁棒和可解释的表征。这是从世界模型通向因果AI的直接路径。

关键参与者与案例研究

构建世界模型的竞赛正在多条战线上展开，从科技巨头到雄心勃勃的初创公司。

DeepMind：Dreamer系列

DeepMind的Dreamer算法（现已至第3版）是最成熟的开源世界模型框架。Dreamer从像素和动作中学习世界模型，然后通过“想象”未来轨迹进行规划。它在Atari 100k基准和DMLab套件上实现了超人类表现，仅需无模型RL所需数据的一小部分。DreamerV3引入了一种名为“自由比特”的稳定技术，防止世界模型崩溃为琐碎的预测，使其在多种环境中保持鲁棒。

Wayve：用于自动驾驶的GAIA-1

英国自动驾驶初创公司Wayve构建了GAIA-1，一个专为驾驶设计的生成式世界模型。GAIA-1能根据文本提示（例如“夜间行人横穿马路”）生成逼真的驾驶场景，并预测后续帧。

时间归档

延伸阅读

常见问题

这次模型发布“World Models: Why AI's Next Leap Is Learning Physics, Not Just Language”的核心内容是什么？

For years, the AI community has been captivated by the scaling hypothesis: throw more data, more parameters, and more compute at a transformer, and intelligence will emerge. And it…

从“world model vs large language model difference”看，这个模型发布为什么重要？

The core insight behind world models is elegantly simple: an intelligent agent should be able to simulate the consequences of its actions before executing them. This requires three components: a representation model that…

围绕“world model autonomous driving simulation”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。