技术深度解析
支撑光祥愿景的技术架构,代表了多个AI学科的复杂融合。其核心是一个分层系统:来自大语言模型的高级规划,与中层世界模型及底层控制系统进行交互。该公司的技术路径很可能基于机器人控制中的扩散策略、基于Transformer的感知系统以及仿真到实物的迁移学习等近期突破。
关键技术组件包括:
1. 多模态基础模型:与纯文本模型不同,具身系统需要视觉-语言-行动模型,能够处理摄像头视频流、深度传感器和本体感知数据,并结合自然语言指令进行处理。谷歌的RT-2和Meta的VC-1等模型已在该领域展现出潜力,但针对特定硬件配置仍需大量适配工作。
2. 用于规划的世界模型:这类神经网络学习环境动态的压缩表征,使得智能体无需物理试错即可预测潜在行动的结果。开源项目DreamerV3因其基于世界模型的样本高效强化学习方法而获得广泛关注(超过4,500颗星)。近期的分支项目已将其适配于机器人操作任务,并取得了可喜的成果。
3. 底层控制系统:该层将高级计划转化为精确的电机指令。现代方法越来越多地结合来自人类演示的模仿学习与用于精细调整的强化学习。由斯坦福研究人员维护的robomimic GitHub仓库,提供了一个从人类演示中学习的综合框架,已成为操作任务的标准基准之一。
4. 仿真基础设施:训练物理系统需要海量的试验数据,完全在现实世界中收集是不切实际的。英伟达的Isaac Sim和OpenAI的MuJoCo已成为领先的仿真平台,但各自在照片级真实感和物理准确性方面存在局限。
性能基准揭示了当前集成挑战的现状:
| 系统组件 | 当前SOTA性能 | 关键局限 |
|---|---|---|
| 视觉感知 | 受控环境下物体识别率 >95% | 在陌生光照/遮挡下降至 ~75% |
| 任务规划 | 已知操作任务成功率 ~85% | 面对新物体组合时低于 40% |
| 长程执行 | 可可靠串联3-4个子任务 | 误差累积限制在5步以上序列 |
| 仿真到实物迁移 | 策略迁移成功率 60-80% | 需要大量的域随机化 |
数据要点:单个组件与集成系统之间的性能差距仍然显著,误差复合是主要挑战。随着任务复杂性增加,成功率急剧下降,这表明当前架构缺乏稳健的错误恢复机制。
主要参与者与案例研究
具身AI领域已从学术研究实验室,演变为资金雄厚的商业项目,各自追求不同的战略路径。光祥进入的是一个竞争激烈的领域,其差异化优势取决于软硬件集成策略和目标应用领域。
集成AI的成熟机器人公司:
- 波士顿动力已从液压系统转向电动平台,并不断增强自主性,但其AI技术栈仍是专有的,且侧重于移动而非操作。
- ABB和发那科正在将视觉系统和基础AI集成到工业机械臂中,但其方法是渐进式的,而非变革性的。
AI优先的初创公司:
- Covariant已为其AI驱动的机器人分拣系统筹集了超过2.22亿美元,专门专注于仓库物流,部署数量可观。
- Figure AI近期从微软、OpenAI和英伟达获得了6.75亿美元融资,用于开发通用人形机器人,是光祥雄心最直接的竞争对手。
- Sanctuary AI通过其Phoenix人形机器人追求认知架构路径,强调推理能力而非原始物理性能。
科技巨头:
- 谷歌机器人部门已产出基础性研究(RT-1、RT-2),但在商业化部署方面步履维艰。
- 特斯拉Optimus代表了一种垂直整合的路径,能够获取其汽车车队产生的大量现实世界数据,但其实际能力尚未得到验证。
| 公司 | 主要焦点 | 融资额(约) | 关键差异化优势 |
|---|---|---|---|
| 光祥科技 | 工业操作与移动底盘 | 1.4亿美元 | 全栈集成,聚焦中国市场 |
| Figure AI | 通用人形机器人 | 6.75亿美元 | 与OpenAI合作,人形形态因子 |
| Covariant | 仓库自动化 | 2.22亿美元 | AI优先,专注物流细分领域 |