无声的马拉松：为何具身智能的真正竞赛在于认知，而非速度

近期，一个人形机器人在实验室环境下完成了马拉松距离，这无疑是足式运动与耐力领域一项非凡的工程里程碑。然而，主流机器人公司、研究实验室和投资者对此的平淡反应，深刻揭示了该领域优先级的重大演变。那个将单一、极端的物理演示奉为机器人学巅峰的时代已经落幕。行业的焦点已果断转向一个更集成、更具商业可行性的新范式：创造由先进“大脑”驱动的“通用躯体”。这一新范式优先考虑敏捷运动学与源自大语言模型（LLMs）及世界模型的认知决策能力的无缝融合。核心挑战不再是追求特定任务的速度或耐力极限，而是构建能够理解复杂指令、适应未知环境并安全执行多样化任务的通用智能体。这意味着从“专才”到“通才”的转变，其衡量标准正从“完成马拉松的时间”转变为“在1000项未见过的操作任务上的成功率”。这一转向标志着机器人技术从高度定制化的工程奇迹，迈向以数据和人工智能驱动的规模化、通用化发展的关键分水岭。

技术深度解析

公众认知与行业焦点之间的分歧，根植于技术路径的根本分野。那位“马拉松冠军”机器人代表了在结构化环境中基于模型的最优控制的顶峰。它的成功依赖于精确的动力学建模、大量的轨迹优化，以及可能长达数月针对特定步态和任务的专门调优。GitHub仓库`raisimLib`——一个用于机器人学与AI研究的物理模拟器——正是这种方法的代表，它能为控制策略训练提供高保真模拟。然而，这是一个专注于单一、预定义目标（高效双足行走）的闭环系统。

而新的前沿是具身基础模型。其目标是创建一个通用控制策略，能够基于高级语言或视觉提示执行海量任务。这需要一种根本不同的架构：

1. 通过LLMs/VLMs实现感知-行动耦合：机器人不再使用硬编码的物体检测器，而是利用如GPT-4V或开源替代品（例如`LLaVA-NeXT`）等视觉语言模型（VLMs）来建立对场景的语义理解。随后，LLM充当高级规划器，将“给我煮杯咖啡”分解为子任务。
2. 用于预测与安全的世界模型：纯粹的LLM规划在物理世界中容易产生“幻觉”。这正是世界模型的用武之地。诸如Google DeepMind的`RT-2`（Robotics Transformer 2）和开源项目`OpenVLA`等，正在开创视觉、语言和动作数据协同训练的先河。这些模型学习对物理规律和功能可供性（例如，杯子是可抓握的，液体会倾倒）的隐式理解。它们能在执行前预测动作结果，从而在新颖情境中实现更安全、更稳健的规划。
3. 底层策略适应：高级计划必须转化为精确的关节扭矩。这就需要在大规模、多样化的机器人动作数据集上应用强化学习（RL）和模仿学习（IL）等技术。由20多个实验室合作构建的`Open X-Embodiment`数据集以及`robomimic` GitHub仓库是此处的关键资源，它们为广泛技能提供了“肌肉记忆”。

技术转向的核心是从专门化优化转向通用化表征学习。衡量基准正从“完成马拉松的时间”转向“在1000项未见操作任务上的成功率”。

| 技术范式 | 核心方法 | 代表项目/仓库 | 关键局限 |
|---|---|---|---|
| 最优控制（马拉松机器人） | 精确动力学建模，轨迹优化 | `raisimLib`（物理模拟器） | 对新情况脆弱，需专家调优，任务特定。 |
| 具身基础模型 | 将VLM、LLM与动作数据协同训练为统一模型 | `RT-2`（谷歌），`OpenVLA`（开源） | 数据需求巨大，训练算力成本高，仿真到现实的差距。 |
| 大规模模仿学习 | 从海量人类演示数据集中学习底层策略 | `Open X-Embodiment`数据集，`robomimic` | 演示数据的质量与多样性是关键瓶颈。 |

数据启示：上表展示了行业从狭窄的、基于模型的技术向广泛的、数据驱动的基础模型的迁移。开源生态系统（`OpenVLA`、`Open X-Embodiment`）正在迅速普及后一范式的使用，加速了行业从专有、单任务卓越性能的旧模式中脱离。

关键参与者与案例研究

战略格局分化为两类：一类是精通“躯体”的 legacy 巨头，另一类是押注“大脑”的敏捷初创公司，少数玩家则试图融合两者。

* 波士顿动力（现代汽车集团）：动态运动的无可争议冠军，也是“马拉松”机器人的精神鼻祖。其Atlas机器人能表演跑酷。然而，他们近期对商用Spot机器人和电动版Atlas的关注揭示了其转向：制造稳健、实用的平台。他们的策略是完善硬件，并逐步叠加自主功能，正如Spot机械臂和巡检API所展示的那样。
* Figure AI：这家初创公司是新范式的化身。他们正并行开发Figure 01人形机器人以及与OpenAI合作构建的AI技术栈。Figure 01演示中与人类对话、理解模糊请求并执行顺应性操作的能力，直接宣示了其“认知优先”的意图。其26亿美元的估值正是对这种集成化路线的押注。
* 特斯拉（Optimus）：特斯拉采取垂直整合、数据规模驱动的路径。利用其在高效执行器、电池系统，尤其是来自其汽车的实世界AI视觉方面的专长，他们旨在激进地降低成本。埃隆·马斯克关于Optimus售价低于2万美元的预测，是“ affordability（经济可及性）”这一核心要务的终极表达。他们的瓶颈在于证明其AI软件栈能够实现超越……（此处按原文保留未完成句，以保持结构一致）

时间归档

延伸阅读

常见问题

这次公司发布“The Silent Marathon: Why Embodied AI's Real Race Is About Cognition, Not Speed”主要讲了什么？

The recent achievement of a humanoid robot completing a marathon distance in a laboratory setting represents a remarkable engineering milestone in legged locomotion and endurance.…

从“Figure AI vs Tesla Optimus which will succeed”看，这家公司的这次发布为什么值得关注？

The divergence between public perception and industry focus is rooted in a technical schism. The 'marathon champion' robot represents the apex of model-based, optimal control in a structured environment. Its success reli…

围绕“cost of general purpose humanoid robot 2030”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。