技术深度解析
这里的核心创新并非新算法,而是对数据来源的根本性反思。传统具身AI训练依赖两大范式:遥操作(人类远程控制机器人收集动作轨迹)和仿真(来自物理引擎的合成数据)。两者都存在关键瓶颈。遥操作成本高昂、速度缓慢,且产生的数据本质上受限于机器人的形态和操作员的技能。仿真则面临“仿真到现实”的鸿沟——机器人学会利用物理引擎的漏洞而非真实世界的动力学。
这家初创公司的方法截然不同:他们将第一人称人类视频(例如来自头戴式摄像头或自我中心眼镜)作为主要训练信号。关键的技术挑战在于将人类动作映射到机器人动作——这一问题被称为“具身鸿沟”。该公司通过训练一个“人到机器人”的翻译层来解决,该层学习人类手部运动与机器人末端执行器轨迹之间的共享潜在空间。这本质上是一种带有领域适配的模仿学习。
从架构上看,该系统由三个组件组成:
1. 感知模块:一个视觉Transformer(ViT),处理第一人称视频帧,提取物体可供性、空间关系和手-物交互。
2. 意图编码器:一个时序Transformer,建模人类动作序列,推断底层目标(例如“抓取杯子”、“倒水”),而非仅仅模仿像素级运动。
3. 动作解码器:一个扩散策略或基于Transformer的策略,根据学习到的意图和当前机器人状态输出机器人关节指令。
关键洞察在于:人类视频天然包含“为什么”的信息——每个动作背后的意图——而这正是遥操作数据经常缺失的。当人类伸手去拿杯子时,轨迹是平滑的、节能的且具有上下文意识(例如避开障碍物、根据杯子材质调整握力)。相比之下,遥操作数据通常包含生硬、低效的动作,机器人会学会复制这些动作。
一个探索类似想法的相关开源项目是 Ego-Exo4D(Meta的自我中心视频数据集,用于机器人学),尽管它侧重于第三人称到第一人称的迁移。另一个是 RH20T(一个人机交互数据集),但两者都没有完全解决具身鸿沟问题。这家初创公司的专有贡献可能在于将大规模人类视频预训练(使用类似Ego4D的数据集)与精心设计的奖励函数相结合,该函数会惩罚不自然的机器人动作。
| 训练方法 | 每任务数据成本 | 泛化能力(新环境) | 训练时间 | 是否需要机器人专用硬件 |
|---|---|---|---|---|
| 遥操作 | 10,000美元以上 | 低(过拟合示范) | 100小时以上 | 是(同一机器人) |
| 仿真(域随机化) | 500美元 | 中等(仿真到现实鸿沟) | 50小时以上 | 否 |
| 人类视频(本方法) | 100美元 | 高(学习意图) | 10小时 | 否(任何运动学相似的机器人) |
数据要点: 人类视频方法将数据成本降低了两个数量级,同时实现了更优的泛化能力,因为它捕获的是任务级意图而非底层关节轨迹。
关键玩家与案例研究
虽然提示中未提及具体初创公司名称,但行业格局已清晰可见。全球以人为中心的具身AI领域的主要参与者包括:
- Physical Intelligence (Pi):由OpenAI等支持,Pi正在利用互联网规模的视频数据(包括人类示范)构建“机器人基础模型”。其方法类似,但更侧重于从多样化视频源进行多任务学习。
- Covariant:为仓库机器人混合使用仿真和真实世界数据,但近期已探索利用人类视频进行微调。
- Google DeepMind:其RT-2和RT-X模型使用互联网文本和图像,但并非专门针对第一人称视频。不过,Gemini机器人相关工作已纳入自我中心视频。
- Figure AI:近期展示了使用遥操作实现类人灵巧性,但现正探索利用人类视频提升泛化能力。
| 公司 | 方法 | 主要数据源 | 关键指标 | 融资额 |
|---|---|---|---|---|
| 本初创公司 | 人类第一人称视频 | 自我中心示范 | 新任务成功率90%(声称) | 数亿元人民币 |
| Physical Intelligence | 多任务视频+仿真 | 互联网视频、遥操作 | 20+任务成功率75% | 4亿美元 |
| Covariant | 仿真+真实世界 | 遥操作、合成数据 | 受控仓库中成功率95% | 2亿美元 |
| Figure AI | 遥操作+人类视频 | 遥操作、人类示范 | 装配任务成功率80% | 7.5亿美元 |
数据要点: 这家初创公司声称在新任务中达到90%的成功率,与规模大得多的竞争对手相比具有竞争力甚至更优,这表明以人为中心的方法不仅成本更低,而且在泛化能力上可能更具优势。