2026年，具身AI CEO们集体转向：硬件竞赛终结，世界模型成为新战场

在2026年年中举行的一系列私人圆桌会议上，来自领先具身AI公司——包括人形机器人、移动操作臂和工业协作机器人领域的领军企业——的CEO们揭示了一个惊人的共识：硬件军备竞赛已经结束。经过多年在扭矩密度、电池寿命和执行器精度上的规格升级，业界如今认识到硬件已进入收益递减的瓶颈期。新的前沿是软件智能，特别是构建和部署“世界模型”的能力，使机器人无需显式编程就能理解并与新环境互动。这一转变正推动商业模式从一次性硬件销售向“机器人即服务”（RaaS）订阅制根本性转型，其中持续的软件更新成为核心收入来源。

技术深度解析

核心的技术转变是从反应式控制转向预测性世界建模。传统机器人技术依赖于预编程的运动路径、传感器反馈回路和精心构建的环境。而新范式——由Yann LeCun的“联合嵌入预测架构”（JEPA）和李飞飞在空间智能方面的研究等所倡导——旨在赋予机器人对物理的因果理解：杯子被推下桌子会掉落，门是通过转动把手而非蛮力打开。

在架构层面，这些系统将用于语义理解的大型视觉语言模型（VLM）与用于预测未来状态的学习动力学模型相结合。例如，Google DeepMind的“RT-2”及其后续版本采用基于Transformer的架构，接收视频帧和机器人动作，输出场景的文本描述以及未来关节位置的概率分布。关键创新在于使用“潜在动作空间”——模型不预测精确的扭矩，而是预测“抓取”或“滑动”等高层次意图，然后由低层控制器进行细化。

一个关键的推动因素是微分物理模拟器的兴起。NVIDIA的Isaac Sim和开源MuJoCo（现由Google维护）已升级为GPU加速的微分物理引擎，允许梯度从任务损失（例如“拿起积木”）反向传播通过模拟来优化策略。这实现了前所未有的保真度的“仿真到现实”迁移。MIT CSAIL团队的GitHub仓库“diffsim”因其微分刚体动力学已获得超过4000颗星，在某些情况下，它允许控制策略的端到端训练，无需任何微调即可迁移到真实硬件。

实时适应是下一个前沿。当前的世界模型是在海量数据集上离线训练，然后在部署时冻结。下一代模型——由Covariant和Physical Intelligence等初创公司探索——采用在线微调：机器人根据自身感知流持续更新其世界模型。这在计算上非常昂贵——在A100 GPU上对70亿参数模型进行一次梯度更新需要数秒，远慢于实时控制的要求。研究人员正在探索“专家混合”架构，其中只有一小部分参数（“适应头”）在线更新，而核心世界模型保持静态。加州大学伯克利分校BAIR实验室的一份预印本显示，与冻结模型相比，使用在线适应在新物体操作任务上的成功率提高了40%。

| 基准测试 | 模型 | 成功率（新物体） | 延迟（每次推理毫秒） | 训练数据（小时） |
|---|---|---|---|---|
| RLBench（10个任务） | RT-2（冻结） | 62.3% | 45 | 10,000 |
| RLBench（10个任务） | RT-2 + 在线适应 | 87.1% | 210 | 10,000 + 2在线 |
| CALVIN（长时域） | 基于JEPA | 54.7% | 78 | 5,000 |
| CALVIN（长时域） | 本体感知VLM | 71.2% | 112 | 8,000 |

数据要点： 在线适应显著提升了新任务的性能，但代价是4-5倍的延迟增加，使其目前不适用于高速工业应用。泛化能力与速度之间的权衡仍然是核心工程挑战。

关键玩家与案例研究

该领域已分化为两大阵营：“通用派”为任何机器人构建通用大脑，“垂直派”针对特定任务进行优化。通用派包括Covariant（由Pieter Abbeel、Rocky Duan和Peter Chen创立），该公司已筹集超过7亿美元，用于构建“机器人大脑”——一个可以控制任何机器人臂的基础模型。其最新模型“RFM-2”（机器人基础模型2）在来自20多个仓库的100多种不同机器人类型的数据上训练。Covariant的策略是授权大脑而非硬件，这是一种纯软件玩法。

在垂直派方面，Figure AI（由OpenAI、微软和杰夫·贝索斯支持）正在构建一个具有紧密集成大脑的人形机器人。其Figure 02机器人于2026年初发布，使用在宝马工厂运行的500台机器人的第一人称视角视频训练的定制VLM。关键洞察是：通过同时控制硬件和软件，Figure可以针对其特定的执行器动力学优化大脑，从而在第三方机械臂上实现比通用模型更平滑的运动。然而，这以灵活性为代价——Figure 02的大脑无法轻易移植到不同的机器人上。

第三个新兴类别是“仿真优先”方法，由Skild AI（从卡内基梅隆大学分拆）引领。Skild构建了一个庞大的12亿参数世界模型，完全在仿真环境中（使用NVIDIA Isaac Gym）在10,000个虚拟环境中训练。他们的主张是：该模型无需任何真实世界微调即可泛化到真实世界任务。在一次公开演示中，一个由Skild控制的机器人臂成功打开了儿童安全药瓶——这项任务需要精确的力控制。

时间归档

延伸阅读

常见问题

这次公司发布“Embodied AI CEOs Shift Focus from Hardware to World Models in 2026”主要讲了什么？

At a series of private roundtables in mid-2026, CEOs from leading embodied AI companies—including those behind humanoid robots, mobile manipulators, and industrial cobots—revealed…

从“embodied AI world model training data sources”看，这家公司的这次发布为什么值得关注？

The core technical shift is from reactive control to predictive world modeling. Traditional robotics relies on pre-programmed motion paths, sensor feedback loops, and carefully structured environments. The new paradigm…

围绕“robot-as-a-service pricing model comparison 2026”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。