技术深度解析
从像素级世界模型到隐空间世界模型的转变,代表着根本性的架构演进。传统世界模型,如DreamerV3(Hafner等人,2023),通过循环状态空间模型(RSSM)学习世界的隐空间表征。它们将观测编码为随机隐状态,预测未来隐状态,然后将这些状态解码回像素预测。虽然有效,但这种方法在规划和控制的每一步都需要解码到像素空间,造成了计算瓶颈。
隐空间世界模型完全消除了这一瓶颈。它们不再预测像素,而是直接在低维隐空间中学习世界因果动力学的压缩表征。模型架构通常包含三个组件:一个隐编码器,将观测(图像、点云或传感器数据)映射为紧凑的隐向量;一个隐动力学预测器,使用Transformer或循环网络预测未来隐状态;以及一个完全在此压缩空间内运行的基于隐空间的策略或规划器。
一个关键创新是隐式神经表征(INRs) 的使用。与存储显式的基于网格的场景表征不同,像Neural Radiance Fields(NeRFs)及其后继者(Instant NGP、3D高斯泼溅)这样的模型学习将坐标映射到场景属性的连续函数。这实现了无限分辨率、内存效率,以及自然处理遮挡和物体恒存性的能力。开源仓库nerfstudio(GitHub上超过10,000颗星)已成为构建和部署此类表征的事实标准工具包,其最新更新支持在消费级GPU上进行实时渲染。
另一个关键进展是联合嵌入预测架构(JEPA),由LeCun在Meta的团队倡导。JEPA通过从输入的一部分(例如图像中被遮罩的区域)的嵌入预测另一部分的嵌入来学习表征,而从不重建输入像素。这迫使模型学习抽象的因果特征,而非像素级统计。开源VICReg(方差-不变性-协方差正则化)仓库(超过2,500颗星)提供了这一原理的实用实现,在自监督学习基准上取得了最先进的结果。
| 模型 | 隐空间维度 | 无像素规划 | 实时边缘推理 | 基准(PointNav成功率) |
|---|---|---|---|---|
| DreamerV3 | 1024 | 否 | 否(需要GPU) | 78% |
| 隐空间世界模型(LWM) | 256 | 是 | 是(移动GPU) | 91% |
| JEPA(基于VICReg) | 512 | 是 | 是(边缘TPU) | 85% |
| 3D高斯泼溅 | 不适用(显式) | 否 | 是(RTX 4090) | 不适用(仅渲染) |
数据要点: 隐空间模型在实现更高任务成功率的同时,使用了小4倍的隐空间维度,并在移动硬件上实现了实时推理。无像素规划能力是关键差异化因素——与像素解码方法相比,它将推理延迟降低了10-100倍。
关键参与者与案例研究
多家主要参与者一直在悄然构建隐空间世界模型基础设施:
Meta AI(FAIR):LeCun的团队最为直言不讳,但他们在JEPA上的工作以及为具身AI开发的Habitat 3.0模拟器揭示了一种系统性策略。他们开源了多个仓库,包括habitat-lab(超过2,500颗星),该仓库提供了一个用于训练导航和操作任务的隐空间世界模型的平台。他们最近的论文《Learning to Act without Actions》证明,智能体可以仅从观测数据中学习隐动力学,这是迈向通用世界模型的关键一步。
Wayve:这家英国自动驾驶初创公司将其整个方法建立在隐空间世界模型之上。他们的GAIA-1模型学习驾驶场景的隐空间表征,并预测未来隐状态以规划轨迹。与依赖显式目标检测和高清地图的传统自动驾驶堆栈不同,GAIA-1在压缩的隐空间中运行,使其能够以前所未有的鲁棒性处理新场景和遮挡。Wayve最近筹集了10.5亿美元,明确将隐空间世界模型列为其核心技术。
Google DeepMind:Dreamer系列算法(DreamerV1、V2、V3)起源于DeepMind,但他们最新的工作DreamerV3 with latent planning代表了向完全隐空间规划的转变。他们的开源dmlab2d环境(超过1,000颗星)正被用于对这些模型进行基准测试。DeepMind的Sensory Neurons论文还展示了如何直接从原始传感器数据学习隐空间表征,绕过了显式视觉处理的需求。
NVIDIA:他们的Mega数字孪生框架