具身智能迎来“GPT-3时刻”：一小时训练达成99%成功率，缩放定律终获物理验证

2026年4月6日 15:41 AINews April 2026

embodied AI world model reinforcement learning 归档：April 2026

长期被假设的“具身缩放定律”获得决定性验证。一家领先的AI公司展示了一套系统，让机器人仅通过一小时的模拟训练，便能学会一项全新的复杂物理操作任务，并在现实世界中部署时达到99%的成功率。这标志着AI从纯软件智能向可扩展、快速适应的物理智能体迈出了关键一步。

人工智能领域的一项里程碑式成就证明，那些彻底改变大语言模型的缩放定律，在物理世界同样威力巨大。一家AI独角兽开发的专有系统，成功训练了一只机械臂执行一项从未见过的灵巧操作任务——例如将销钉精确插入公差可变的孔中，或组装非标准部件。整个训练过程完全在高保真模拟环境中进行，经过约1800次尝试后，系统迁移至实体机器人上，执行任务的成功率达到了惊人的99%。这一基准在过去需要数月精心编程和校准才可能达到，如今已可轻松逾越。

这一成果远非机器人控制领域的渐进式改良。它标志着物理AI的“GPT-3时刻”已然来临——即通过海量数据和计算规模扩展，实现能力的阶跃式提升。长期以来，机器人技术受限于“莫拉维克悖论”：对人类而言轻而易举的感知和运动技能，对机器却异常困难。传统方法依赖手工编码的规则和特定任务的优化，缺乏泛化能力。而此次突破的核心在于，将驱动ChatGPT等大语言模型的“缩放定律”成功应用于物理智能体。其基本假设是：随着用于训练的多样化机器人交互数据量（来自模拟和现实世界）的增加，以及模型规模的扩大，机器人执行广泛物理任务的能力将以可预测的方式提升。

此次演示验证了这一假设。系统通过一个统一的“世界模型”进行训练，该模型在潜在空间中学习物理交互的动态规律，从而能够快速规划新任务。训练完全在模拟中进行，避免了现实世界中试错法耗时、昂贵且危险的弊端。一小时后，习得的策略便能以近乎完美的成功率直接迁移到实体机器人上。这为机器人技术的民主化铺平了道路，未来，为机器人编程新技能可能像微调一个大语言模型一样简单。其影响将席卷从物流和制造业（机器人可即时适应新产品）到家庭辅助和医疗护理（机器人能学习个性化任务）的各个领域。物理AI的规模化时代，已经拉开序幕。

技术深度解析

实现这一壮举的系统，代表了多个先进AI子领域的融合，其架构设计旨在最大化数据效率和“模拟到现实”的迁移能力。其核心是一个统一世界模型，很可能是一种基于Transformer或扩散模型的架构，作用于机器人状态（关节角度、末端执行器位姿）和视觉观测（来自腕部和顶部摄像头）的潜在表示。该模型在海量、多样化的机器人交互序列数据集上进行训练，学习在给定动作的情况下预测下一个潜在状态和奖励。关键在于，它学习了一个压缩的、与任务相关的动态模型，忽略了无关的视觉细节——这一过程类似于大语言模型发展出对语法和语义的内部表示。

训练以前所未有的规模利用了基于模型的强化学习。策略完全在习得的世界模型内部进行训练，而非直接在现实世界中训练（后者极其缓慢且危险）。这个过程是迭代式的：策略在世界模型中探索，世界模型根据新的模拟轨迹进行优化，策略随之改进。在模型内经过1800次这样的规划步骤（相当于数百万次模拟物理步骤）后，策略趋于收敛。最后一步是零样本模拟到现实迁移。以世界模型的潜在表示为条件的策略，被直接部署到实体机器人上。由于世界模型的潜在空间抽象掉了光照、纹理等特定领域的细节，策略得以稳健地泛化。

可扩展性的关键是模拟基础设施。英伟达的Isaac Sim平台，以及开源项目如Google DeepMind的`dm_control`套件和Facebook的`Habitat`模拟平台，提供了生成海量训练数据所需的高保真、可并行化环境。一个值得注意的开源成果是加州大学伯克利分校RAIL实验室的`robomimic`代码库，它提供了从演示中进行大规模机器人学习的算法和基准，这是对纯强化学习方法的一种补充。

| 训练范式 | 数据来源 | 训练时间（新任务预估） | 现实世界成功率（典型） | 关键局限 |
|---|---|---|---|---|
| 传统编程 | 人类工程师 | 数周-数月 | >99.9%（领域内） | 零灵活性，前期成本高 |
| 模仿学习 | 人类演示 | 数天-数周 | 80-95% | 演示数据瓶颈，分布偏移 |
| 无模型强化学习（实体机器人） | 现实世界试错 | 数月 | 不稳定，通常较低 | 极其缓慢，不安全 |
| 世界模型 + MBRL（本次突破） | 模拟交互 | 约1小时 | ~99% | 模拟保真度差距，计算成本 |

数据要点： 上表突显了范式转变：新的世界模型方法将技能熟练度与现实世界的时间和风险解耦，实现了以小时计的训练时长达到近乎完美的成功率，这对于适应性物理技能而言是此前难以想象的壮举。

关键参与者与案例研究

验证并商业化“具身缩放定律”的竞赛，由一批资金雄厚、原生AI的机器人公司领跑。虽然实现99%演示成功率的具体公司未在公开报告中具名，但其技术特征指向了Covariant等领军者。Covariant的RFM（机器人基础模型）明确建立在扩展多样化机器人数据的前提之上，旨在为机器人构建通用的“AI大脑”，使其能够处理仓库中的数百万种商品。他们公开展示的拣选机器人适应新物品的能力，与文中描述的能力高度吻合。

Figure AI与OpenAI合作，正在为人形机器人探索类似路径，旨在构建能够学习多种任务的通用具身智能体。Boston Dynamics正从传奇的动态控制转向融合AI学习进行操控，这在Atlas近期的跑酷和操控学习视频中可见一斑。在学术界，斯坦福大学的Mobile Aloha项目和卡内基梅隆大学机器人研究所等实验室，已通过大规模模仿学习（纯强化学习的数据驱动近亲）在双手操作方面展示了令人印象深刻的结果。

这些参与者正押注不同的初始市场，以驱动其数据飞轮：

| 公司 | 主要方向 | 关键技术 | 目标市场 | 融资/背景 |
|---|---|---|---|---|
| Covariant | 机器人操控 | 机器人基础模型 | 物流、仓储 | 2.22亿美元以上（C轮） |
| Figure AI | 通用人形机器人 | 具身AI + LLM集成 | 制造业、物流 | 6.75亿美元（B轮） |
| Boston Dynamics | 动态移动与操控 | 混合（经典控制 + 学习） | 工业、研究 | 现代汽车旗下 |
| Sanctuary AI | 人形通用智能 | 认知架构（Phoenix） | 劳动力替代 | 1.4亿美元以上 |

时间归档

常见问题

这次公司发布“Embodied Scaling Law Validated: 99% Success Rate in One Hour Marks Physical AI's GPT-3 Moment”主要讲了什么？

A landmark achievement in artificial intelligence has demonstrated that the scaling principles which revolutionized large language models are equally potent in the physical realm.…

从“Which company achieved the 99% robot learning success rate?”看，这家公司的这次发布为什么值得关注？

The system achieving this feat represents a convergence of several advanced AI subfields, architecturally designed to maximize data efficiency and sim-to-real transfer. At its heart is a Unified World Model, likely a tra…

围绕“How does Covariant's RFM model compare to Figure AI's approach?”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。

具身智能迎来“GPT-3时刻”：一小时训练达成99%成功率，缩放定律终获物理验证

技术深度解析

关键参与者与案例研究

相关专题

时间归档

延伸阅读

常见问题