机器人学界悄然达成共识：ICRA与CVPR 2025上的具身基础模型浪潮

ICRA与CVPR 2025的走廊里，热议的焦点不再是强化学习与模仿学习之争，而是一个统一的主题：如何将大语言模型、视频扩散模型与世界模型融合为单一的具身智能系统。AINews观察到，最受关注的论文不再将机器人视为配备摄像头的机械臂，而是将其看作一个多模态推理实体——它观察人类演示，在内部生成任务执行的“心理模拟”，然后以零样本泛化能力执行任务。实时视频生成已成为杀手级应用：机器人在行动前“想象”未来的动作轨迹，将传统的感知-规划-执行流水线压缩进单一基础模型。联合具身基础模型研讨会（Embodied Foundation Models Workshop）座无虚席，标志着该领域从分散探索走向统一范式。

技术深度解析

推动这一转变的核心架构洞察，是用一个端到端的基础模型取代经典的三层机器人堆栈（感知、规划、控制），该模型联合推理语言、视觉和动作。被整合在一起的关键组件包括：

- 大语言模型（LLMs） 作为中央推理引擎。像GPT-4o、Claude 3.5以及开源替代品（如LLaMA-3、Qwen2.5）这样的模型正在被微调，以输出不仅是文本，还有动作标记或潜在动作嵌入。Google DeepMind的RT-2架构通过训练一个视觉-语言-动作（VLA）模型证明了这一点，该模型通过Transformer骨干网络直接将像素输入映射到机器人关节指令。

- 世界模型（World Models） 用于预测未来状态。这里的关键创新是使用视频扩散模型作为隐式世界模型。与显式建模物理不同，像UniSim和VideoPoet（以及它们的机器人专用衍生版本）这样的模型，基于当前观察和语言目标生成未来视频帧。然后，机器人将这些生成的帧用作“心理排练”来规划其动作。一个值得注意的开源成果是DreamerV3仓库（目前在GitHub上约有8k星标），它在潜在空间中学习世界模型，并通过想象进行规划。

- 实时视频生成 作为新的控制接口。这是最激进的变革。机器人不再使用单独的规划器，而是使用视频扩散模型以10-30 FPS的速度生成一系列未来帧，然后从连续帧之间的像素差异中提取动作指令。GenAug框架（最近开源，约2.5k星标）通过合成生成的变体来增强训练数据，而VideoControlNet（一个社区分支，约4k星标）则实现了对机器人本体感受状态的实时条件控制。

基准性能数据：

| 模型 | 任务成功率（零样本） | 延迟（毫秒/步） | 训练数据（回合数） | 参数量 |
|---|---|---|---|---|
| RT-2 (VLA) | 62% | 350 | 130k | 55B |
| RT-2 + 视频扩散 | 78% | 420 | 130k | 55B + 1.4B |
| DreamerV3 (世界模型) | 71% | 280 | 50k | 20M |
| GenAug (视频增强) | 83% | 310 | 10k | 7B |
| Octo (开源VLA) | 58% | 290 | 80k | 27B |

数据要点： 视频扩散与VLA骨干网络（RT-2 + 视频扩散）的结合产生了最高的零样本成功率，但代价是更高的延迟。GenAug方法纯粹将视频生成用于数据增强，在真实训练数据最少的情况下实现了最佳性能，这表明合成视频生成是数据效率最高的前进路径。

关键参与者与案例研究

这种融合由少数关键参与者推动，各自拥有不同的策略：

- Google DeepMind：RT-2和RT-X系列是VLA方法最突出的例子。他们的策略是在大规模、多样化的机器人数据集（Open X-Embodiment）上进行训练，并依赖语言模型骨干网络的规模。他们最新的工作RT-2-X将视频扩散作为预训练目标，使模型在针对机器人数据进行微调之前，能够学习关于合理未来状态的先验知识。

- Physical Intelligence (π)：这家由前Google Brain和斯坦福研究人员创立的隐秘初创公司，正在构建一个名为π0的通用机器人基础模型。他们的方法使用流匹配架构同时生成视频和动作标记，有效地模糊了规划与控制之间的界限。他们已在20多种不同的机器人平台上展示了零样本泛化能力，从单臂到移动操作器。

- Covariant：这家AI机器人公司已从任务特定模型转向统一的“机器人基础模型”（RFM-1）。他们的关键见解是在互联网规模的视频数据和真实机器人遥操作数据的混合体上进行训练，使用一个同时预测下一视频帧和下一动作的Transformer。他们在仓库中部署的系统显示，任务特定工程时间减少了40%。

- NVIDIA：通过其Isaac Sim和Cosmos平台，NVIDIA为训练世界模型提供了基础设施。他们的MimicGen工具（开源，约3k星标）通过扰动物体姿态和相机角度，从单个人类示例自动生成合成演示，从而为世界模型预训练创建了无限训练数据。

竞争方法比较：

| 公司/项目 | 核心架构 | 训练数据来源 | 零样本泛化能力 | 开源？ |
|---|---|---|---|---|
| Google RT-2-X | VLA + 视频扩散 | 130k机器人 + 互联网视频 | 高 (62-78%) | 否 |
| Physical Intelligence π0 | 流匹配 (视频+动作) | 50k机器人 + 1M互联网 | 非常高 (80%+) | 否 |
| Covariant RFM-1 | 下一帧 + 下一动作 Transformer | 混合互联网视频 + 遥操作数据 | 高 | 否 |

时间归档

延伸阅读

常见问题

这次模型发布“Robotics Quietly Unifies Around Embodied Foundation Models at ICRA and CVPR”的核心内容是什么？

The hallways of ICRA and CVPR 2025 were abuzz not with debates over reinforcement learning versus imitation learning, but with a single, unifying topic: how to fuse large language…

从“What is the difference between a VLA and a world model in robotics?”看，这个模型发布为什么重要？

The core architectural insight driving this shift is the replacement of the classical three-layer robotics stack—perception, planning, control—with a single, end-to-end foundation model that jointly reasons about languag…

围绕“How does real-time video generation enable zero-shot robot control?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。