技术深度解析
当前这波机器人融资浪潮,其根本驱动力来自架构设计上的转变:将基于Transformer的大语言模型(LLM)与传统机器人控制栈进行整合。过去,机器人依赖人工设计的感知流水线和运动规划器。工厂里的机械臂可以从已知位置抓取特定零件,但如果零件旋转了10度或光照发生变化,它就会失败。这种被称为“LLM-as-brain”的新范式,利用预训练语言模型作为高级推理模块,解释自然语言指令,将其分解为子任务,并调用底层控制器执行。
架构概览:
最先进的系统采用三层架构:
1. 感知层: 多模态模型(例如基于CLIP或DINOv2的模型)处理摄像头画面、LiDAR点云和触觉传感器数据,构建实时3D场景表征。
2. 推理层: 一个经过微调的LLM(通常基于LLaMA-3或GPT-4级别的模型)接收场景表征和用户的自然语言指令。它输出一系列结构化格式的高级动作,例如“grasp(handle, 0.5N) -> rotate(wrist, 90deg) -> place(on_shelf, slot_3)”。
3. 控制层: 模型预测控制器(MPC)或强化学习(RL)策略将这些动作转化为关节扭矩和速度,以1kHz的频率执行。
该领域一个值得注意的开源项目是RT-2-X(Google DeepMind的机器人Transformer),其代码和模型权重已在GitHub上发布。该仓库已获得超过8000颗星,并提供了一个预训练的视觉-语言-动作(VLA)模型,可针对特定机器人平台进行微调。另一个关键仓库是robomimic(超过3000颗星),它提供了一个标准化的模仿学习框架,使研究人员能够用最少的数据从人类演示中训练策略。
基准性能:
下表比较了最新具身智能模型在关键指标上的表现:
| 模型 | 成功率(拾取与放置) | 泛化能力(新物体) | 训练数据规模 | 推理延迟(毫秒) |
|---|---|---|---|---|
| RT-2-X (Google) | 87% | 62% | 13万次演示 | 320 |
| Octo (UC Berkeley) | 82% | 58% | 8万次演示 | 280 |
| OpenVLA (Stanford) | 91% | 71% | 6万次演示 + 100万张网络图像 | 450 |
| 专有模型 (Figure 01) | 94%(声称) | 78%(声称) | 未公开 | <200(声称) |
数据要点: 虽然专有系统声称性能更高,但像OpenVLA这样的开源模型正在迅速缩小差距,尤其是在对未见物体的泛化能力上。代价是推理延迟——OpenVLA比RT-2-X慢40%,这对于实时操作任务可能至关重要。胜出的方法可能是一种混合方案:对常规动作使用快速、精简的策略,仅在遇到新情况时才调用更慢但能力更强的模型。
关键玩家与案例研究
Figure AI 已成为人形机器人领域的领跑者。他们的Figure 01机器人身高5英尺6英寸,重130磅,专为仓库和物流任务设计。该公司的策略是垂直整合:他们自行设计执行器、电池组和控制软件。最近6.75亿美元的融资轮使该公司估值达到26亿美元。其关键差异化优势是与OpenAI的合作,将GPT-4级别的推理能力直接嵌入机器人的控制回路,使其能够理解诸如“拿起那个看起来像咖啡杯但实际上是工具的东西”这类模糊指令。
相比之下,Covariant 专注于“大脑”而非“身体”。他们的Covariant Brain平台是一种基于云的AI,可以改装到任何来自发那科、ABB或优傲机器人的工业机械臂上。这种纯软件方法降低了硬件风险,并允许在数千个现有安装基础上快速扩展。其3.2亿美元的融资轮由一家全球物流公司领投,该公司计划到2025年在500个仓库中部署Covariant的系统。
Skild AI 则走了一条不同的技术路径:他们正在构建一个“世界模型”——一个模拟物理、物体动力学和任务结果的神经网络。这使得机器人能够在虚拟环境中以1万倍的速度进行训练,然后将学到的技能以最少的微调迁移到现实世界。他们的1.5亿美元A轮融资押注于“仿真优先”的训练方式将大幅降低部署成本。
商业模式对比:
| 公司 | 方法 | 收入模式 | 单位经济性(估算) | 关键风险 |
|---|---|---|---|---|
| Figure AI | 全栈人形机器人 | 机器人即服务(RaaS),每月3000美元 | 每台18个月实现盈亏平衡 | 硬件可靠性 |
| Covariant | 纯软件AI | 每台机器人许可费(每月500美元) | 毛利率70%以上 | 客户锁定风险 |
| Skild AI | 世界模型 + 仿真 | API调用(每次训练回合0.10美元) | 高利润率,低 |