具身智能迎来“GPT-3时刻”:一小时训练达成99%成功率,缩放定律终获物理验证

长期被假设的“具身缩放定律”获得决定性验证。一家领先的AI公司展示了一套系统,让机器人仅通过一小时的模拟训练,便能学会一项全新的复杂物理操作任务,并在现实世界中部署时达到99%的成功率。这标志着AI从纯软件智能向可扩展、快速适应的物理智能体迈出了关键一步。

人工智能领域的一项里程碑式成就证明,那些彻底改变大语言模型的缩放定律,在物理世界同样威力巨大。一家AI独角兽开发的专有系统,成功训练了一只机械臂执行一项从未见过的灵巧操作任务——例如将销钉精确插入公差可变的孔中,或组装非标准部件。整个训练过程完全在高保真模拟环境中进行,经过约1800次尝试后,系统迁移至实体机器人上,执行任务的成功率达到了惊人的99%。这一基准在过去需要数月精心编程和校准才可能达到,如今已可轻松逾越。

这一成果远非机器人控制领域的渐进式改良。它标志着物理AI的“GPT-3时刻”已然来临——即通过海量数据和计算规模扩展,实现能力的阶跃式提升。长期以来,机器人技术受限于“莫拉维克悖论”:对人类而言轻而易举的感知和运动技能,对机器却异常困难。传统方法依赖手工编码的规则和特定任务的优化,缺乏泛化能力。而此次突破的核心在于,将驱动ChatGPT等大语言模型的“缩放定律”成功应用于物理智能体。其基本假设是:随着用于训练的多样化机器人交互数据量(来自模拟和现实世界)的增加,以及模型规模的扩大,机器人执行广泛物理任务的能力将以可预测的方式提升。

此次演示验证了这一假设。系统通过一个统一的“世界模型”进行训练,该模型在潜在空间中学习物理交互的动态规律,从而能够快速规划新任务。训练完全在模拟中进行,避免了现实世界中试错法耗时、昂贵且危险的弊端。一小时后,习得的策略便能以近乎完美的成功率直接迁移到实体机器人上。这为机器人技术的民主化铺平了道路,未来,为机器人编程新技能可能像微调一个大语言模型一样简单。其影响将席卷从物流和制造业(机器人可即时适应新产品)到家庭辅助和医疗护理(机器人能学习个性化任务)的各个领域。物理AI的规模化时代,已经拉开序幕。

技术深度解析

实现这一壮举的系统,代表了多个先进AI子领域的融合,其架构设计旨在最大化数据效率和“模拟到现实”的迁移能力。其核心是一个统一世界模型,很可能是一种基于Transformer或扩散模型的架构,作用于机器人状态(关节角度、末端执行器位姿)和视觉观测(来自腕部和顶部摄像头)的潜在表示。该模型在海量、多样化的机器人交互序列数据集上进行训练,学习在给定动作的情况下预测下一个潜在状态和奖励。关键在于,它学习了一个压缩的、与任务相关的动态模型,忽略了无关的视觉细节——这一过程类似于大语言模型发展出对语法和语义的内部表示。

训练以前所未有的规模利用了基于模型的强化学习。策略完全在习得的世界模型内部进行训练,而非直接在现实世界中训练(后者极其缓慢且危险)。这个过程是迭代式的:策略在世界模型中探索,世界模型根据新的模拟轨迹进行优化,策略随之改进。在模型内经过1800次这样的规划步骤(相当于数百万次模拟物理步骤)后,策略趋于收敛。最后一步是零样本模拟到现实迁移。以世界模型的潜在表示为条件的策略,被直接部署到实体机器人上。由于世界模型的潜在空间抽象掉了光照、纹理等特定领域的细节,策略得以稳健地泛化。

可扩展性的关键是模拟基础设施。英伟达的Isaac Sim平台,以及开源项目如Google DeepMind的`dm_control`套件和Facebook的`Habitat`模拟平台,提供了生成海量训练数据所需的高保真、可并行化环境。一个值得注意的开源成果是加州大学伯克利分校RAIL实验室的`robomimic`代码库,它提供了从演示中进行大规模机器人学习的算法和基准,这是对纯强化学习方法的一种补充。

| 训练范式 | 数据来源 | 训练时间(新任务预估) | 现实世界成功率(典型) | 关键局限 |
|---|---|---|---|---|
| 传统编程 | 人类工程师 | 数周-数月 | >99.9%(领域内) | 零灵活性,前期成本高 |
| 模仿学习 | 人类演示 | 数天-数周 | 80-95% | 演示数据瓶颈,分布偏移 |
| 无模型强化学习(实体机器人) | 现实世界试错 | 数月 | 不稳定,通常较低 | 极其缓慢,不安全 |
| 世界模型 + MBRL(本次突破) | 模拟交互 | 约1小时 | ~99% | 模拟保真度差距,计算成本 |

数据要点: 上表突显了范式转变:新的世界模型方法将技能熟练度与现实世界的时间和风险解耦,实现了以小时计的训练时长达到近乎完美的成功率,这对于适应性物理技能而言是此前难以想象的壮举。

关键参与者与案例研究

验证并商业化“具身缩放定律”的竞赛,由一批资金雄厚、原生AI的机器人公司领跑。虽然实现99%演示成功率的具体公司未在公开报告中具名,但其技术特征指向了Covariant等领军者。Covariant的RFM(机器人基础模型)明确建立在扩展多样化机器人数据的前提之上,旨在为机器人构建通用的“AI大脑”,使其能够处理仓库中的数百万种商品。他们公开展示的拣选机器人适应新物品的能力,与文中描述的能力高度吻合。

Figure AI与OpenAI合作,正在为人形机器人探索类似路径,旨在构建能够学习多种任务的通用具身智能体。Boston Dynamics正从传奇的动态控制转向融合AI学习进行操控,这在Atlas近期的跑酷和操控学习视频中可见一斑。在学术界,斯坦福大学的Mobile Aloha项目和卡内基梅隆大学机器人研究所等实验室,已通过大规模模仿学习(纯强化学习的数据驱动近亲)在双手操作方面展示了令人印象深刻的结果。

这些参与者正押注不同的初始市场,以驱动其数据飞轮:

| 公司 | 主要方向 | 关键技术 | 目标市场 | 融资/背景 |
|---|---|---|---|---|
| Covariant | 机器人操控 | 机器人基础模型 | 物流、仓储 | 2.22亿美元以上(C轮) |
| Figure AI | 通用人形机器人 | 具身AI + LLM集成 | 制造业、物流 | 6.75亿美元(B轮) |
| Boston Dynamics | 动态移动与操控 | 混合(经典控制 + 学习) | 工业、研究 | 现代汽车旗下 |
| Sanctuary AI | 人形通用智能 | 认知架构(Phoenix) | 劳动力替代 | 1.4亿美元以上 |

延伸阅读

理想汽车押注具身AI,中国科技巨头从“云智能”转向“物理智能体”理想汽车首次对外投资一家由旗舰车型L9核心工程师创立的具身AI机器人公司。阿里巴巴CEO的个人跟投,标志着中国科技领袖已形成战略共识:人工智能的下一前沿必须拥有物理实体。具身智能迈入资本“季后赛”时代,280亿美元估值成新入场券具身智能赛道已跨越关键门槛。领军企业星海图完成的28亿美元里程碑式融资,不仅是一家公司的胜利,更标志着行业正从技术演示阶段,转向资本密集的“季后赛”时代。280亿美元估值,正成为参与严肃竞争的隐性入场券。RoboChallenge Table30 V2:具身AI泛化危机的新熔炉具身AI领域迎来新北极星。RoboChallenge Table30 V2这一要求前所未有的泛化能力的标准化物理测试平台,正在重新定义研究进展的衡量标准。它超越脚本化任务,直接评估智能体在新场景中适应、推理与应用所学概念的核心能力,直面该领地瓜机器人27亿美元豪赌具身智能,全球自动化迎来范式转移地瓜机器人近日完成总额27亿美元的B轮融资,其中最新一笔达15亿美元,创下机器人史上最大单笔投资之一。这笔巨额资本标志着一个深刻的行业转向:从专用自动化迈向能在动态现实场景中运作的通用认知机器。资金将全力推动其机器人即服务(RaaS)模式的

常见问题

这次公司发布“Embodied Scaling Law Validated: 99% Success Rate in One Hour Marks Physical AI's GPT-3 Moment”主要讲了什么?

A landmark achievement in artificial intelligence has demonstrated that the scaling principles which revolutionized large language models are equally potent in the physical realm.…

从“Which company achieved the 99% robot learning success rate?”看,这家公司的这次发布为什么值得关注?

The system achieving this feat represents a convergence of several advanced AI subfields, architecturally designed to maximize data efficiency and sim-to-real transfer. At its heart is a Unified World Model, likely a tra…

围绕“How does Covariant's RFM model compare to Figure AI's approach?”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。