技术深度解析
实现这一壮举的系统,代表了多个先进AI子领域的融合,其架构设计旨在最大化数据效率和“模拟到现实”的迁移能力。其核心是一个统一世界模型,很可能是一种基于Transformer或扩散模型的架构,作用于机器人状态(关节角度、末端执行器位姿)和视觉观测(来自腕部和顶部摄像头)的潜在表示。该模型在海量、多样化的机器人交互序列数据集上进行训练,学习在给定动作的情况下预测下一个潜在状态和奖励。关键在于,它学习了一个压缩的、与任务相关的动态模型,忽略了无关的视觉细节——这一过程类似于大语言模型发展出对语法和语义的内部表示。
训练以前所未有的规模利用了基于模型的强化学习。策略完全在习得的世界模型内部进行训练,而非直接在现实世界中训练(后者极其缓慢且危险)。这个过程是迭代式的:策略在世界模型中探索,世界模型根据新的模拟轨迹进行优化,策略随之改进。在模型内经过1800次这样的规划步骤(相当于数百万次模拟物理步骤)后,策略趋于收敛。最后一步是零样本模拟到现实迁移。以世界模型的潜在表示为条件的策略,被直接部署到实体机器人上。由于世界模型的潜在空间抽象掉了光照、纹理等特定领域的细节,策略得以稳健地泛化。
可扩展性的关键是模拟基础设施。英伟达的Isaac Sim平台,以及开源项目如Google DeepMind的`dm_control`套件和Facebook的`Habitat`模拟平台,提供了生成海量训练数据所需的高保真、可并行化环境。一个值得注意的开源成果是加州大学伯克利分校RAIL实验室的`robomimic`代码库,它提供了从演示中进行大规模机器人学习的算法和基准,这是对纯强化学习方法的一种补充。
| 训练范式 | 数据来源 | 训练时间(新任务预估) | 现实世界成功率(典型) | 关键局限 |
|---|---|---|---|---|
| 传统编程 | 人类工程师 | 数周-数月 | >99.9%(领域内) | 零灵活性,前期成本高 |
| 模仿学习 | 人类演示 | 数天-数周 | 80-95% | 演示数据瓶颈,分布偏移 |
| 无模型强化学习(实体机器人) | 现实世界试错 | 数月 | 不稳定,通常较低 | 极其缓慢,不安全 |
| 世界模型 + MBRL(本次突破) | 模拟交互 | 约1小时 | ~99% | 模拟保真度差距,计算成本 |
数据要点: 上表突显了范式转变:新的世界模型方法将技能熟练度与现实世界的时间和风险解耦,实现了以小时计的训练时长达到近乎完美的成功率,这对于适应性物理技能而言是此前难以想象的壮举。
关键参与者与案例研究
验证并商业化“具身缩放定律”的竞赛,由一批资金雄厚、原生AI的机器人公司领跑。虽然实现99%演示成功率的具体公司未在公开报告中具名,但其技术特征指向了Covariant等领军者。Covariant的RFM(机器人基础模型)明确建立在扩展多样化机器人数据的前提之上,旨在为机器人构建通用的“AI大脑”,使其能够处理仓库中的数百万种商品。他们公开展示的拣选机器人适应新物品的能力,与文中描述的能力高度吻合。
Figure AI与OpenAI合作,正在为人形机器人探索类似路径,旨在构建能够学习多种任务的通用具身智能体。Boston Dynamics正从传奇的动态控制转向融合AI学习进行操控,这在Atlas近期的跑酷和操控学习视频中可见一斑。在学术界,斯坦福大学的Mobile Aloha项目和卡内基梅隆大学机器人研究所等实验室,已通过大规模模仿学习(纯强化学习的数据驱动近亲)在双手操作方面展示了令人印象深刻的结果。
这些参与者正押注不同的初始市场,以驱动其数据飞轮:
| 公司 | 主要方向 | 关键技术 | 目标市场 | 融资/背景 |
|---|---|---|---|---|
| Covariant | 机器人操控 | 机器人基础模型 | 物流、仓储 | 2.22亿美元以上(C轮) |
| Figure AI | 通用人形机器人 | 具身AI + LLM集成 | 制造业、物流 | 6.75亿美元(B轮) |
| Boston Dynamics | 动态移动与操控 | 混合(经典控制 + 学习) | 工业、研究 | 现代汽车旗下 |
| Sanctuary AI | 人形通用智能 | 认知架构(Phoenix) | 劳动力替代 | 1.4亿美元以上 |