技术深度解析
Jim Fan 的宣言根植于对现代机器人学习模型架构的根本性质疑。VLA 范式——以 Google 的 RT-2 和 PALM-E 等模型为代表——将机器人控制视为一个序列到序列的问题:视觉编码器(如 ViT)处理摄像头输入,语言模型(如 PaLM)解析任务指令,然后一个小型动作解码器输出关节角度或末端执行器位姿。问题在于,这是一种浅层映射。模型学习的是像素、词汇与电机指令之间的相关性,但其内部没有任何物理表征——没有对重力、摩擦力、惯性或物体恒存性的理解。当一个 VLA 模型在 10,000 次“拿起红色杯子”的演示上训练后,遇到一个半透明杯子或处于阴影中的杯子时,它会失败,因为像素分布发生了偏移,而不是因为它缺乏“杯子性”的概念。
与此同时,遥操作是为这些模型提供数据的数据采集方法。ALOHA 平台或 DROID 等系统使用人类操作员远程控制机器人手臂,生成高质量的演示数据。但这在规模化上是一条死路。每项新任务都需要人类通过物理或虚拟方式引导机器人完成数百条轨迹。每次演示的成本高昂,数据的多样性受限于人类的耐心与灵巧度。例如,DROID 数据集包含超过 350 小时的遥操作数据,覆盖 80 项任务,但即使如此庞大的努力也只覆盖了真实世界交互可能性的极小一部分。
Fan 的替代方案是世界模型方法,其最突出的代表是 NVIDIA 的 Cosmos 平台和 Isaac Gym 模拟器。世界模型是一种神经网络,它学习环境状态的潜在表征,以及一个预测该状态在不同动作下如何演化的转移函数。机器人不再学习“如果我看到一个杯子,就把夹爪移动到 (x,y,z)”,而是学习“如果我对这个物体施加力向量 F,它将根据其质量和摩擦力加速”。这是一个物理因果模型。然后机器人可以利用这个模型进行规划:它可以在自己的“想象”中模拟数千种可能的动作序列,评估哪一种能导向目标状态,然后执行该计划。这与 DeepMind 的 Dreamer 和 MuZero 算法背后的原理相同,但应用于物理机器人领域。
工程挑战是巨大的。构建一个足够精确以用于真实世界操作的世界模型,需要捕捉复杂的动力学:刚体物理、软体变形、流体动力学、接触力等等。NVIDIA 的方法是使用一个“神经物理”模型,该模型在来自 Isaac Sim 的海量模拟数据上进行训练。然后,该模型通过少量真实世界数据进行微调,以修正“模拟到现实”的差距。这是一种根本不同的扩展法则:不是扩展人类演示,而是扩展模拟计算。
| 方法 | 数据来源 | 扩展瓶颈 | 对陌生场景的泛化能力 | 推理时的计算成本 |
|---|---|---|---|---|
| VLA (RT-2, PALM-E) | 遥操作演示 | 人类数据收集 | 差(在分布偏移时失败) | 低(单次前向传播) |
| 遥操作 (ALOHA, DROID) | 人类引导的轨迹 | 人类时间与成本 | 不适用(数据采集方法) | 不适用 |
| 世界模型 (Cosmos, Dreamer) | 模拟 + 少量真实数据 | 模拟保真度与计算 | 高(因果推理) | 高(需要规划展开) |
| 行为克隆 (Diffusion Policy) | 遥操作演示 | 数据多样性 | 中等(平滑轨迹) | 低 |
数据要点: 该表格揭示了清晰的权衡。VLA 和遥操作推理成本低,但存在扩展和泛化问题。世界模型承诺卓越的泛化能力,但推理时计算成本高得多,需要强大的 GPU 进行实时规划。这正是 NVIDIA 的硬件优势成为护城河的地方。
该领域一个值得注意的开源项目是 Genesis (github: Genesis-Embodied-AI/Genesis),这是一个专为机器人学习设计的通用物理引擎。它在 GitHub 上已获得超过 15,000 颗星,并提供了一个 Python 原生平台,用于生成海量模拟训练数据。另一个是 MuJoCo (github: google-deepmind/mujoco),这是机器人研究中物理模拟的事实标准,最近增加了对可微物理的支持,从而能够对控制策略进行基于梯度的优化。这些工具是世界模型范式的构建模块。
关键参与者与案例研究
机器人学习未来的争夺战正在多条战线上展开。在 Jim Fan 的领导下,NVIDIA 是世界模型方法最激进的倡导者。他们的战略是构建物理 AI 的“操作系统”:Omniverse 用于模拟,Cosmos 用于世界模型训练,Isaac 用于机器人控制,Jetson/Orin 用于边缘部署。