技术深度解析
推动这一资本集中的核心技术转变,是LLM + 世界模型架构的成熟。在2024年和2025年,大多数具身智能系统依赖一条脆弱的流水线:一个用于感知的视觉语言模型(VLM)、一个用于控制的独立运动规划器,以及一个用于任务分解的高层LLM。这套堆栈速度慢、易出错,且需要针对每个环境进行大量手动调优。
到2026年,赢家公司已收敛于统一架构。关键创新在于实时世界模型——一个学习物理、物体动力学和环境约束的压缩表示的神经网络。该模型并非独立模块,而是与LLM的注意力机制深度融合。例如,Figure AI的最新系统使用了JEPA(联合嵌入预测架构) 的变体,该架构最初由Yann LeCun在Meta的团队推广,用于在潜在空间中预测机器人环境的未来状态。这使得机器人能在执行动作前推理其后果,从而大幅减少试错失败。
在工程层面,关键瓶颈一直是实时推理延迟。一个需要500毫秒更新一次的世界模型,对于接住掉落箱子的机器人而言毫无用处。突破来自TensorRT-LLM优化与专为Transformer推理设计的定制FPGA加速器的结合。Covariant(现为某大型企业集团的一部分)已在GitHub上开源了其推理堆栈的部分组件,仓库名为`cova-infer`(目前获得4200颗星),该堆栈在单个边缘GPU上实现了7B参数世界模型的亚10毫秒推理。
| 架构组件 | 2024年堆栈(脆弱) | 2026年堆栈(统一) | 延迟改进 |
|---|---|---|---|
| 感知 | 独立VLM(如CLIP) | 集成到世界模型潜在空间 | 快3倍 |
| 任务规划 | LLM API调用(如GPT-4) | 与世界模型注意力内联 | 快5倍 |
| 运动控制 | 手工编码的逆运动学求解器 | 通过模型预测控制(MPC)学习 | 快2倍 |
| 故障恢复 | 硬编码后备方案 | 世界模型预测并避免 | 故障减少10倍 |
数据要点: 统一架构将典型拾放任务的端到端延迟从约2秒降至约200毫秒。这正是一台看起来笨拙的机器人与一台动作如人类般流畅的机器人之间的区别。投资者押注于这种延迟降低,因为它直接转化为工厂中更高的吞吐量和更低的单任务成本。
另一个关键的技术推动因素是大规模仿真到现实迁移。这20家赢家并非在实体机器人上训练,而是在由NVIDIA Isaac Sim和MuJoCo通过域随机化生成的海量合成数据集上训练。来自加州大学伯克利分校研究人员的GitHub仓库`embodied-scaling-laws`(8900颗星)证明,在1亿条合成轨迹上训练的世界模型,在现实场景中的成功率达到95%,而仅在1000万条真实轨迹上训练的模型成功率仅为60%。这彻底打破了数据收集的瓶颈。
关键玩家与案例研究
吸收了370亿美元(460亿美元的80%)的20家公司可分为三大垂直领域:物流与仓储、制造与装配以及手术机器人。每个垂直领域都有明确的领导者。
物流与仓储:Agility Robotics 和 Dexory
Agility Robotics凭借其Digit机器人已超越演示阶段。2026年上半年,他们在亚马逊和DHL仓库部署了1200台设备。其秘诀是完全在仿真中训练的强化学习(RL)策略,该策略能应对真实仓库中混乱、拥挤的通道。他们在E轮融资中筹集了42亿美元。英国初创公司Dexory则聚焦于更狭窄的用例——卸载集装箱,从而筹集了18亿美元。其机器人使用定制的3D打印夹爪和针对狭小空间优化的世界模型,在混合托盘上实现了99.7%的成功率。
制造与装配:Figure AI 和 Apptronik
Figure AI筹集了最大单轮融资:65亿美元。其人形机器人Figure 02现已在宝马装配线上运行,执行车门面板安装和线束布线等任务。说服宝马的关键指标是平均故障间隔时间(MTBF)。得益于统一世界模型对机械应力的预测与规避,Figure的MTBF从2024年的8小时跃升至2026年的450小时。Apptronik凭借其Apollo机器人筹集了22亿美元,瞄准汽车和电子装配领域。他们通过提供模块化手臂系统实现差异化,该系统可在5分钟内完成更换。
| 公司 | 垂直领域 | 融资额(2026上半年) | 关键指标 | 部署规模 |
|---|---|---|---|---|
| Figure AI | 制造 | 65亿美元 | MTBF:450小时 | 宝马工厂800台 |