技术深度解析
推动这一转变的核心架构洞察,是用一个端到端的基础模型取代经典的三层机器人堆栈(感知、规划、控制),该模型联合推理语言、视觉和动作。被整合在一起的关键组件包括:
- 大语言模型(LLMs) 作为中央推理引擎。像GPT-4o、Claude 3.5以及开源替代品(如LLaMA-3、Qwen2.5)这样的模型正在被微调,以输出不仅是文本,还有动作标记或潜在动作嵌入。Google DeepMind的RT-2架构通过训练一个视觉-语言-动作(VLA)模型证明了这一点,该模型通过Transformer骨干网络直接将像素输入映射到机器人关节指令。
- 世界模型(World Models) 用于预测未来状态。这里的关键创新是使用视频扩散模型作为隐式世界模型。与显式建模物理不同,像UniSim和VideoPoet(以及它们的机器人专用衍生版本)这样的模型,基于当前观察和语言目标生成未来视频帧。然后,机器人将这些生成的帧用作“心理排练”来规划其动作。一个值得注意的开源成果是DreamerV3仓库(目前在GitHub上约有8k星标),它在潜在空间中学习世界模型,并通过想象进行规划。
- 实时视频生成 作为新的控制接口。这是最激进的变革。机器人不再使用单独的规划器,而是使用视频扩散模型以10-30 FPS的速度生成一系列未来帧,然后从连续帧之间的像素差异中提取动作指令。GenAug框架(最近开源,约2.5k星标)通过合成生成的变体来增强训练数据,而VideoControlNet(一个社区分支,约4k星标)则实现了对机器人本体感受状态的实时条件控制。
基准性能数据:
| 模型 | 任务成功率(零样本) | 延迟(毫秒/步) | 训练数据(回合数) | 参数量 |
|---|---|---|---|---|
| RT-2 (VLA) | 62% | 350 | 130k | 55B |
| RT-2 + 视频扩散 | 78% | 420 | 130k | 55B + 1.4B |
| DreamerV3 (世界模型) | 71% | 280 | 50k | 20M |
| GenAug (视频增强) | 83% | 310 | 10k | 7B |
| Octo (开源VLA) | 58% | 290 | 80k | 27B |
数据要点: 视频扩散与VLA骨干网络(RT-2 + 视频扩散)的结合产生了最高的零样本成功率,但代价是更高的延迟。GenAug方法纯粹将视频生成用于数据增强,在真实训练数据最少的情况下实现了最佳性能,这表明合成视频生成是数据效率最高的前进路径。
关键参与者与案例研究
这种融合由少数关键参与者推动,各自拥有不同的策略:
- Google DeepMind:RT-2和RT-X系列是VLA方法最突出的例子。他们的策略是在大规模、多样化的机器人数据集(Open X-Embodiment)上进行训练,并依赖语言模型骨干网络的规模。他们最新的工作RT-2-X将视频扩散作为预训练目标,使模型在针对机器人数据进行微调之前,能够学习关于合理未来状态的先验知识。
- Physical Intelligence (π):这家由前Google Brain和斯坦福研究人员创立的隐秘初创公司,正在构建一个名为π0的通用机器人基础模型。他们的方法使用流匹配架构同时生成视频和动作标记,有效地模糊了规划与控制之间的界限。他们已在20多种不同的机器人平台上展示了零样本泛化能力,从单臂到移动操作器。
- Covariant:这家AI机器人公司已从任务特定模型转向统一的“机器人基础模型”(RFM-1)。他们的关键见解是在互联网规模的视频数据和真实机器人遥操作数据的混合体上进行训练,使用一个同时预测下一视频帧和下一动作的Transformer。他们在仓库中部署的系统显示,任务特定工程时间减少了40%。
- NVIDIA:通过其Isaac Sim和Cosmos平台,NVIDIA为训练世界模型提供了基础设施。他们的MimicGen工具(开源,约3k星标)通过扰动物体姿态和相机角度,从单个人类示例自动生成合成演示,从而为世界模型预训练创建了无限训练数据。
竞争方法比较:
| 公司/项目 | 核心架构 | 训练数据来源 | 零样本泛化能力 | 开源? |
|---|---|---|---|---|
| Google RT-2-X | VLA + 视频扩散 | 130k机器人 + 互联网视频 | 高 (62-78%) | 否 |
| Physical Intelligence π0 | 流匹配 (视频+动作) | 50k机器人 + 1M互联网 | 非常高 (80%+) | 否 |
| Covariant RFM-1 | 下一帧 + 下一动作 Transformer | 混合互联网视频 + 遥操作数据 | 高 | 否 |