机器人学界悄然达成共识:ICRA与CVPR 2025上的具身基础模型浪潮

June 2026
embodied AIroboticsworld models归档:June 2026
在ICRA与CVPR 2025上,机器人研究者们悄然达成共识:未来属于具身基础模型。大语言模型、世界模型与实时视频生成正被整合进统一的机器人大脑,使机器人能够从单次人类演示中实现零样本泛化。

ICRA与CVPR 2025的走廊里,热议的焦点不再是强化学习与模仿学习之争,而是一个统一的主题:如何将大语言模型、视频扩散模型与世界模型融合为单一的具身智能系统。AINews观察到,最受关注的论文不再将机器人视为配备摄像头的机械臂,而是将其看作一个多模态推理实体——它观察人类演示,在内部生成任务执行的“心理模拟”,然后以零样本泛化能力执行任务。实时视频生成已成为杀手级应用:机器人在行动前“想象”未来的动作轨迹,将传统的感知-规划-执行流水线压缩进单一基础模型。联合具身基础模型研讨会(Embodied Foundation Models Workshop)座无虚席,标志着该领域从分散探索走向统一范式。

技术深度解析

推动这一转变的核心架构洞察,是用一个端到端的基础模型取代经典的三层机器人堆栈(感知、规划、控制),该模型联合推理语言、视觉和动作。被整合在一起的关键组件包括:

- 大语言模型(LLMs) 作为中央推理引擎。像GPT-4o、Claude 3.5以及开源替代品(如LLaMA-3、Qwen2.5)这样的模型正在被微调,以输出不仅是文本,还有动作标记或潜在动作嵌入。Google DeepMind的RT-2架构通过训练一个视觉-语言-动作(VLA)模型证明了这一点,该模型通过Transformer骨干网络直接将像素输入映射到机器人关节指令。

- 世界模型(World Models) 用于预测未来状态。这里的关键创新是使用视频扩散模型作为隐式世界模型。与显式建模物理不同,像UniSim和VideoPoet(以及它们的机器人专用衍生版本)这样的模型,基于当前观察和语言目标生成未来视频帧。然后,机器人将这些生成的帧用作“心理排练”来规划其动作。一个值得注意的开源成果是DreamerV3仓库(目前在GitHub上约有8k星标),它在潜在空间中学习世界模型,并通过想象进行规划。

- 实时视频生成 作为新的控制接口。这是最激进的变革。机器人不再使用单独的规划器,而是使用视频扩散模型以10-30 FPS的速度生成一系列未来帧,然后从连续帧之间的像素差异中提取动作指令。GenAug框架(最近开源,约2.5k星标)通过合成生成的变体来增强训练数据,而VideoControlNet(一个社区分支,约4k星标)则实现了对机器人本体感受状态的实时条件控制。

基准性能数据:

| 模型 | 任务成功率(零样本) | 延迟(毫秒/步) | 训练数据(回合数) | 参数量 |
|---|---|---|---|---|
| RT-2 (VLA) | 62% | 350 | 130k | 55B |
| RT-2 + 视频扩散 | 78% | 420 | 130k | 55B + 1.4B |
| DreamerV3 (世界模型) | 71% | 280 | 50k | 20M |
| GenAug (视频增强) | 83% | 310 | 10k | 7B |
| Octo (开源VLA) | 58% | 290 | 80k | 27B |

数据要点: 视频扩散与VLA骨干网络(RT-2 + 视频扩散)的结合产生了最高的零样本成功率,但代价是更高的延迟。GenAug方法纯粹将视频生成用于数据增强,在真实训练数据最少的情况下实现了最佳性能,这表明合成视频生成是数据效率最高的前进路径。

关键参与者与案例研究

这种融合由少数关键参与者推动,各自拥有不同的策略:

- Google DeepMind:RT-2和RT-X系列是VLA方法最突出的例子。他们的策略是在大规模、多样化的机器人数据集(Open X-Embodiment)上进行训练,并依赖语言模型骨干网络的规模。他们最新的工作RT-2-X将视频扩散作为预训练目标,使模型在针对机器人数据进行微调之前,能够学习关于合理未来状态的先验知识。

- Physical Intelligence (π):这家由前Google Brain和斯坦福研究人员创立的隐秘初创公司,正在构建一个名为π0的通用机器人基础模型。他们的方法使用流匹配架构同时生成视频和动作标记,有效地模糊了规划与控制之间的界限。他们已在20多种不同的机器人平台上展示了零样本泛化能力,从单臂到移动操作器。

- Covariant:这家AI机器人公司已从任务特定模型转向统一的“机器人基础模型”(RFM-1)。他们的关键见解是在互联网规模的视频数据和真实机器人遥操作数据的混合体上进行训练,使用一个同时预测下一视频帧和下一动作的Transformer。他们在仓库中部署的系统显示,任务特定工程时间减少了40%。

- NVIDIA:通过其Isaac SimCosmos平台,NVIDIA为训练世界模型提供了基础设施。他们的MimicGen工具(开源,约3k星标)通过扰动物体姿态和相机角度,从单个人类示例自动生成合成演示,从而为世界模型预训练创建了无限训练数据。

竞争方法比较:

| 公司/项目 | 核心架构 | 训练数据来源 | 零样本泛化能力 | 开源? |
|---|---|---|---|---|
| Google RT-2-X | VLA + 视频扩散 | 130k机器人 + 互联网视频 | 高 (62-78%) | 否 |
| Physical Intelligence π0 | 流匹配 (视频+动作) | 50k机器人 + 1M互联网 | 非常高 (80%+) | 否 |
| Covariant RFM-1 | 下一帧 + 下一动作 Transformer | 混合互联网视频 + 遥操作数据 | 高 | 否 |

相关专题

embodied AI175 篇相关文章robotics32 篇相关文章world models143 篇相关文章

时间归档

June 20261429 篇已发布文章

延伸阅读

How a Table Tennis Robot's Victory Signals Embodied AI's Leap into Dynamic Physical InteractionA table tennis robot has decisively defeated a human professional player, an achievement far more significant than a spo物理优先世界模型与VLA闭环:如何破解具身AI的零样本泛化危机从对话AI迈向能在物理世界行动的智能体,其道路长期被‘零样本泛化’这一根本性限制所阻断。如今,一种以物理优先世界模型为核心、结合视觉-语言-行动闭环演化的新范式正在崛起,它通过创造无限扩展的合成训练场,为具身智能的真正学习铺平了道路。ATEC2026:具身智能的“图灵测试”,数字大脑与物理实体的分水岭全新基准测试ATEC2026正式亮相,它被定位为具身人工智能领域的终极“图灵测试”。该测试将评估从仿真环境转向混乱、不可预测的真实世界,迫使AI智能体展现强大的感知能力、安全的交互能力和自适应的物理执行能力。这标志着AI评估的核心,正从“言中国数据驱动的具身AI如何通过消费级硬件重塑机器人未来“抱抱脸”机器人的爆火不仅是消费电子产品的胜利,更标志着一场由中国人主导的人工智能范式革命。其核心在于“数据驱动的具身智能”路径——通过大众硬件收集海量物理交互数据,为训练通用机器人智能体奠定基石,标志着AI重心从云端模型向物理世界的决定性

常见问题

这次模型发布“Robotics Quietly Unifies Around Embodied Foundation Models at ICRA and CVPR”的核心内容是什么?

The hallways of ICRA and CVPR 2025 were abuzz not with debates over reinforcement learning versus imitation learning, but with a single, unifying topic: how to fuse large language…

从“What is the difference between a VLA and a world model in robotics?”看,这个模型发布为什么重要?

The core architectural insight driving this shift is the replacement of the classical three-layer robotics stack—perception, planning, control—with a single, end-to-end foundation model that jointly reasons about languag…

围绕“How does real-time video generation enable zero-shot robot control?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。