技术深度解析
具身智能的技术栈发展迅速,但实验室演示与工厂级可靠性之间的差距依然巨大。核心在于三个相互关联的范式:
1. 大语言模型(LLM)作为任务规划器: 像GPT-4o和Claude 3.5这样的LLM被用于将高级指令(例如“组装变速箱”)分解为子任务。然而,它们缺乏物理基础——机器人可能会规划“抓取轴”,却没有考虑轴的重量或表面摩擦力。Google DeepMind的研究人员表明,在机器人交互数据(如RT-2)上微调LLM可以改善物理基础,但模型仍然会“幻觉”出不可能的序列。
2. 视频生成模型作为物理模拟器: 像OpenAI的Sora和Runway Gen-3 Alpha这样的模型可以生成物体交互的真实视频,但它们并非因果世界模型。一个观看杯子被注水生成视频的机器人无法推断流体动力学——它只学习像素级别的相关性。这与能够预测行动后果的真正世界模型有本质区别。
3. 用于长程规划的世界模型: 最有前景的方向是“世界模型”方法,以DeepMind的DreamerV3和开源项目UniSim(GitHub: google-research/unisim,2.3k星标,积极维护)为代表。这些模型学习环境的压缩表示,并能“想象”未来状态。在模拟中,DreamerV3在需要数百步的Minecraft任务上实现了超人类表现。但迁移到真实硬件会引入“模拟到现实”的鸿沟——模型从未遇到过的摩擦系数、传感器噪声和执行器延迟。
| 模型/框架 | 任务类型 | 成功率(模拟) | 成功率(真实) | 模拟到现实差距 |
|---|---|---|---|---|
| RT-2 (Google) | 抓取与放置 | 87% | 62% | 25% |
| DreamerV3 (DeepMind) | 长程导航 | 93% | 41% | 52% |
| Octo (UC Berkeley) | 多任务操作 | 78% | 55% | 23% |
| UniSim (Google) | 物理预测 | 91% | 不适用(仅模拟) | — |
数据要点: 模拟到现实的鸿沟仍然是最大的技术障碍。即使是最好的模型,从模拟迁移到物理硬件时,性能也会下降20-50%。对于长程任务(DreamerV3),差距最大,因为小误差会随时间累积。
数据扩展问题: 与自然语言处理(互联网提供数万亿个token)不同,机器人数据昂贵且稀缺。一小时的真实世界机器人交互可能花费500美元以上,包括硬件磨损、人工监督和计算成本。Open X-Embodiment数据集(GitHub: google-research/open_x_embodiment,4.1k星标)汇集了来自22个不同机器人平台的数据,但仍比语言数据集小几个数量级。行业需要一个机器人领域的“ImageNet时刻”——一个大型、多样化、标准化的数据集,能够实现预训练。
硬件异构性: 与在同一GPU架构上运行的LLM不同,机器人拥有截然不同的传感器(激光雷达、RGB-D相机、触觉传感器)、执行器(电动、液压、气动)和运动学结构(6自由度机械臂、人形机器人、四足机器人)。在Franka Emika机械臂上训练的策略无法迁移到Universal Robots机械臂,而无需大量重新训练。这种碎片化阻碍了机器人“基础模型”的出现。
关键玩家与案例研究
1. Covariant(仓库机器人AI): 由前OpenAI研究人员创立,Covariant已将其“Covariant Brain”部署在全球20多个仓库中,处理了超过1亿次拣选。他们的方法使用基于Transformer的模型,在来自实时运营的专有数据上进行训练。然而,他们的机器人仍然难以应对新物体——一个新的SKU可能需要2-3天才能达到完全准确。他们现在正在扩展到“配套”任务(组装零件套件),这是迈向工厂工作的一步。
2. Figure AI(人形通用机器人): 由Microsoft、OpenAI和Jeff Bezos提供6.75亿美元支持,Figure旨在构建一个能在工厂工作的人形机器人。他们的Figure 01演示展示了一个根据语音命令制作咖啡的机器人,但演示是高度脚本化的——咖啡机、杯子和豆子都位于固定的已知位置。在真实工厂中,机器人需要定位工具、适应损坏的设备并从溢出中恢复。Figure尚未发布任何真实世界的部署指标。
3. Physical Intelligence(π0模型): 这家隐秘的初创公司(已筹集1.2亿美元)最近发表了一篇关于π0的论文,这是一个在超过10,000小时机器人数据上训练的视觉-语言-动作模型。他们的关键创新是“动作分块”——预测一系列动作而非单一步骤,这提高了流畅性并减少了累积误差。然而,他们的测试仅限于桌面操作;工厂规模的任务仍未得到验证。
4. Boston Dynamics(Spot, Atlas): 这家腿式运动领域的资深公司已展示