技术深度解析
行业领袖所预示的转向,要求对技术优先级进行根本性的重新架构。之前的范式压倒性地聚焦于‘脊髓与四肢’——高扭矩密度执行器、用于平衡的先进模型预测控制(MPC),以及用于动态运动的强化学习(RL)。新范式则要求一个更卓越的‘大脑皮层与小脑’。
具身智能的新AI技术栈: 焦点正转向创建一个将高层推理与底层控制相统一的AI系统。这涉及多个分层组件:
1. 基础世界模型: 机器人无需为所有可能场景编程,而是需要学习物理和因果关系的模型。Google DeepMind的 RT-2(Robotics Transformer 2) 和开源的 Open X-Embodiment 合作项目即是例证。RT-2 在网络规模的语言、图像数据以及机器人轨迹数据上共同训练,使其能够理解如‘把香蕉移到2+3的和那里’的指令,通过找到附近写着的数字5来执行。
2. 分层规划与技能库: 任务被分解。高层规划器(通常是LLM)将‘清空洗碗机’分解为步骤。中层模块从库中检索或调整预训练的技能基元(‘抓握杯子’、‘打开抽屉’)。底层控制器执行优化后的轨迹。哥伦比亚大学机器人学习实验室的 `diffusion_policy` GitHub 仓库是一个关键例子,它提供了使用扩散模型学习视觉运动策略的代码,相比传统RL,在多模态、接触丰富的任务中已展现出更优性能。
3. 大规模仿真到现实(Sim2Real): 可靠的现实世界部署需要在仿真中进行海量、多样化的训练。英伟达的 Isaac Sim 和开源的 `iGibson 2.0` 模拟器(来自斯坦福大学)至关重要。iGibson 2.0 提供了家庭和办公室环境的交互式、照片级真实感模拟,并具有物理可信的物体交互,使得在真实世界测试前就能训练出鲁棒的操控策略。
可靠性与成本的权衡: 最重大的工程挑战在于机械复杂性(实现类人灵巧性和移动性所需)与可靠性/成本之间的反比关系。波士顿动力的Atlas机器人是液压与控制的奇迹,但其成本高昂且维护要求高,令人望而却步。以Figure和1X Technologies等公司为代表的新浪潮,则采用机电执行器,力求以极低的成本和故障率实现‘足够好’的运动范围。
| 技术焦点 | 旧范式(演示时代) | 新范式(商业时代) |
| :--- | :--- | :--- |
| 首要目标 | 最大化动态性能(速度、敏捷性、灵巧度) | 最大化平均故障间隔时间(MTBF)与任务成功率 |
| 核心AI | 用于运动的强化学习(RL) | 用于规划的LLM/VLM,用于控制的扩散/Transformer策略 |
| 仿真用途 | 验证控制算法 | 为感知与策略生成海量、多样化的训练数据 |
| 传感器优先级 | 本体感知(关节位置、力) | 外感受(3D视觉、触觉传感)以理解场景 |
| 关键指标 | 自由度(DoF)、运动速度 | 单次成功任务小时成本(CPSTH) |
数据启示: 该表格揭示了优先级的彻底反转。商业时代不再将原始运动性能置于首位,而是青睐系统级智能与鲁棒性,其终极指标是经济性的:可靠完成一个单位工作所需的成本。
关键参与者与案例研究
行业正分化为两类参与者:一类凭借动态运动能力建立声誉,另一类则以软件优先、商业用例为导向崭露头角。
传统‘运动员’:
* 波士顿动力(现代汽车旗下): 动态移动性领域无可争议的领导者。其Atlas和Spot机器人是工程杰作。然而,Spot的商业化历程具有启发性——它从一个未来感十足的吉祥物,转型为坚固的工业检测工具。Atlas则仍是一个研究平台。他们面临的挑战是简化和降低成本,以实现可扩展的部署。
* Agility Robotics(亚马逊投资): 在亚马逊的大力支持下,Agility的 Digit 机器人明确为物流和仓库工作设计。其双足形态旨在适应人类尺度的环境,但其动作保守且有目的性,优先考虑稳定性和能效,而非杂技。亚马逊的参与是对一个特定、高容量用例的直接押注。
软件原生的竞争者:
* Figure AI: 或许是新范式最直接的体现。在打造通用人形机器人Figure 01的同时,其战略锚定于与 宝马 在汽车制造部署方面的里程碑式合作。其最近的演示展示了端到端的任务执行能力,强调了软件智能与实用硬件的结合。