2026年,具身AI CEO们集体转向:硬件竞赛终结,世界模型成为新战场

June 2026
embodied AIworld models归档:June 2026
具身智能领域的领导者们不再比拼电机扭矩或关节自由度。一个全新的共识已然形成:真正的差异化在于“大脑”——世界模型与实时适应能力。本文深入剖析从硬件参数到软件定义智能的范式转变,以及这一变革对行业走向大规模普及的深远意义。

在2026年年中举行的一系列私人圆桌会议上,来自领先具身AI公司——包括人形机器人、移动操作臂和工业协作机器人领域的领军企业——的CEO们揭示了一个惊人的共识:硬件军备竞赛已经结束。经过多年在扭矩密度、电池寿命和执行器精度上的规格升级,业界如今认识到硬件已进入收益递减的瓶颈期。新的前沿是软件智能,特别是构建和部署“世界模型”的能力,使机器人无需显式编程就能理解并与新环境互动。这一转变正推动商业模式从一次性硬件销售向“机器人即服务”(RaaS)订阅制根本性转型,其中持续的软件更新成为核心收入来源。

技术深度解析

核心的技术转变是从反应式控制转向预测性世界建模。传统机器人技术依赖于预编程的运动路径、传感器反馈回路和精心构建的环境。而新范式——由Yann LeCun的“联合嵌入预测架构”(JEPA)和李飞飞在空间智能方面的研究等所倡导——旨在赋予机器人对物理的因果理解:杯子被推下桌子会掉落,门是通过转动把手而非蛮力打开。

在架构层面,这些系统将用于语义理解的大型视觉语言模型(VLM)与用于预测未来状态的学习动力学模型相结合。例如,Google DeepMind的“RT-2”及其后续版本采用基于Transformer的架构,接收视频帧和机器人动作,输出场景的文本描述以及未来关节位置的概率分布。关键创新在于使用“潜在动作空间”——模型不预测精确的扭矩,而是预测“抓取”或“滑动”等高层次意图,然后由低层控制器进行细化。

一个关键的推动因素是微分物理模拟器的兴起。NVIDIA的Isaac Sim和开源MuJoCo(现由Google维护)已升级为GPU加速的微分物理引擎,允许梯度从任务损失(例如“拿起积木”)反向传播通过模拟来优化策略。这实现了前所未有的保真度的“仿真到现实”迁移。MIT CSAIL团队的GitHub仓库“diffsim”因其微分刚体动力学已获得超过4000颗星,在某些情况下,它允许控制策略的端到端训练,无需任何微调即可迁移到真实硬件。

实时适应是下一个前沿。当前的世界模型是在海量数据集上离线训练,然后在部署时冻结。下一代模型——由Covariant和Physical Intelligence等初创公司探索——采用在线微调:机器人根据自身感知流持续更新其世界模型。这在计算上非常昂贵——在A100 GPU上对70亿参数模型进行一次梯度更新需要数秒,远慢于实时控制的要求。研究人员正在探索“专家混合”架构,其中只有一小部分参数(“适应头”)在线更新,而核心世界模型保持静态。加州大学伯克利分校BAIR实验室的一份预印本显示,与冻结模型相比,使用在线适应在新物体操作任务上的成功率提高了40%。

| 基准测试 | 模型 | 成功率(新物体) | 延迟(每次推理毫秒) | 训练数据(小时) |
|---|---|---|---|---|
| RLBench(10个任务) | RT-2(冻结) | 62.3% | 45 | 10,000 |
| RLBench(10个任务) | RT-2 + 在线适应 | 87.1% | 210 | 10,000 + 2在线 |
| CALVIN(长时域) | 基于JEPA | 54.7% | 78 | 5,000 |
| CALVIN(长时域) | 本体感知VLM | 71.2% | 112 | 8,000 |

数据要点: 在线适应显著提升了新任务的性能,但代价是4-5倍的延迟增加,使其目前不适用于高速工业应用。泛化能力与速度之间的权衡仍然是核心工程挑战。

关键玩家与案例研究

该领域已分化为两大阵营:“通用派”为任何机器人构建通用大脑,“垂直派”针对特定任务进行优化。通用派包括Covariant(由Pieter Abbeel、Rocky Duan和Peter Chen创立),该公司已筹集超过7亿美元,用于构建“机器人大脑”——一个可以控制任何机器人臂的基础模型。其最新模型“RFM-2”(机器人基础模型2)在来自20多个仓库的100多种不同机器人类型的数据上训练。Covariant的策略是授权大脑而非硬件,这是一种纯软件玩法。

在垂直派方面,Figure AI(由OpenAI、微软和杰夫·贝索斯支持)正在构建一个具有紧密集成大脑的人形机器人。其Figure 02机器人于2026年初发布,使用在宝马工厂运行的500台机器人的第一人称视角视频训练的定制VLM。关键洞察是:通过同时控制硬件和软件,Figure可以针对其特定的执行器动力学优化大脑,从而在第三方机械臂上实现比通用模型更平滑的运动。然而,这以灵活性为代价——Figure 02的大脑无法轻易移植到不同的机器人上。

第三个新兴类别是“仿真优先”方法,由Skild AI(从卡内基梅隆大学分拆)引领。Skild构建了一个庞大的12亿参数世界模型,完全在仿真环境中(使用NVIDIA Isaac Gym)在10,000个虚拟环境中训练。他们的主张是:该模型无需任何真实世界微调即可泛化到真实世界任务。在一次公开演示中,一个由Skild控制的机器人臂成功打开了儿童安全药瓶——这项任务需要精确的力控制。

相关专题

embodied AI183 篇相关文章world models144 篇相关文章

时间归档

June 20261856 篇已发布文章

延伸阅读

天津机器人:北方工业重镇以重型自主系统崛起天津机器人产业已崛起为工业自主化领域的一股强大力量,在深海、高温、高负载环境中部署重型系统。这座北方工业重镇摒弃了消费级市场的浮华,专注于硬核可靠性,构建了一个如今不容忽视的垂直整合生态系统。舞台之外:中国具身智能企业进军硅谷的四条路径中国人形机器人制造商正以一套“现实主义”打法,走出实验室的展示舞台。AINews 梳理出四种清晰的全球化扩张策略——从直接销售到开放平台——它们正在重塑具身智能领域的竞争格局。具身智能的GPT时刻:为何仓库机器人还无法驾驭工厂车间具身智能正从受控的仓库环境迈向动态的工厂车间,但真正的“GPT时刻”——一个无需微调即可跨任务泛化的单一模型——仍遥不可及。AINews深度剖析技术飞跃、商业鸿沟,以及为何行业需要耐心而非炒作。具身智能的工厂革命:从实验室演示到工业价值创造具身智能作为实验室奇观的时代正在终结。随着AI驱动的机器人离开受控的演示环境,踏入严苛的工厂车间现实,一场静默而深刻的战略转型正在进行。这标志着该技术完成了从证明能力到创造可衡量经济价值的关键一跃。

常见问题

这次公司发布“Embodied AI CEOs Shift Focus from Hardware to World Models in 2026”主要讲了什么?

At a series of private roundtables in mid-2026, CEOs from leading embodied AI companies—including those behind humanoid robots, mobile manipulators, and industrial cobots—revealed…

从“embodied AI world model training data sources”看,这家公司的这次发布为什么值得关注?

The core technical shift is from reactive control to predictive world modeling. Traditional robotics relies on pre-programmed motion paths, sensor feedback loops, and carefully structured environments. The new paradigm…

围绕“robot-as-a-service pricing model comparison 2026”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。