技术深度解析
这一突破的核心在于对训练数据管线的激进重构。传统上,人形机器人的训练依赖两大来源:(1)在物理模拟器(如 Nvidia Isaac Sim)中生成的海量、完美标注的合成数据集;(2)由人类引导机器人完成完美任务执行、经过精心筛选的遥操作数据。这两种方法都存在一个致命缺陷:它们产出的模型极其脆弱,一旦面对真实世界充满随机性的本质,便会灾难性地失败。
银河通用与英伟达颠覆了这一逻辑。他们不是过滤掉失败,而是主动将其注入训练过程。他们的方法,我们可称之为“对抗性失败注入”,具体运作如下:
1. 模拟混沌:利用 Nvidia 的 Isaac Gym 和 Isaac Sim,他们生成了机器人环境被故意扰动的训练片段。这包括随机改变摩擦力、物体质量的意外变化、传感器噪声尖峰,甚至模拟执行器故障。
2. 失败作为学习信号:奖励函数并非仅基于任务成功。奖励的很大一部分被分配给机器人从失败状态中恢复的能力。例如,如果机器人掉落了一个物体,训练会继续进行,模型因成功重新抓取而获得奖励,而不仅仅是因为最初的完美抓取。
3. 域随机化的极致应用:Nvidia 的模拟工具允许进行极端的域随机化。团队随机化了视觉纹理、光照条件,甚至机器人自身身体的物理属性(例如,关节扭矩限制的微小变化)。这迫使策略学习任务的“不变表征”,而不是记忆特定的模拟特性。
4. 真实世界数据循环:最关键的创新在于将真实世界的“失败日志”紧密集成。当银河通用的机器人在测试环境中失败时(例如,掉落箱子、在表面上打滑),该轨迹会立即被上传,并用于生成新的、更难的模拟场景。这创建了一个持续的反馈循环,其中真实世界教会模拟应该关注什么。
相关开源项目:
- Isaac Gym (Nvidia):虽然并非开源,但其影响力巨大。社区已开发出替代方案,如 MuJoCo (Google DeepMind) 和 PyBullet,用于类似的失败注入训练。一个值得注意的 GitHub 仓库是 'humanoid-gym'(由一组研究人员联合开发),它为使用对抗性扰动训练人形机器人运动提供了基线。由于其稳健的奖励塑形技术,该项目近期已获得超过 2000 颗星。
- DROID (Google DeepMind):一个用于从多样化、不完美的演示中学习机器人技能的数据集和框架。虽然并非直接来自此次合作,但它与相同的哲学转变方向一致。
基准数据: 这种转变已经显示出可衡量的成果。对比银河通用采用失败注入训练的新模型与传统完美数据训练的模型,差异显著。
| 训练方法 | 任务成功率(实验室) | 任务成功率(真实仓库) | 失败后恢复率 | 所需训练数据(小时) |
|---|---|---|---|---|
| 完美数据(基线) | 94% | 41% | 12% | 10,000 |
| 失败注入(银河通用) | 88% | 83% | 79% | 4,500 |
数据要点: 失败注入模型在纯净的实验室条件下略有下降(88% 对 94%),但在真实世界的泛化能力上却实现了惊人的 42 个百分点的提升。更重要的是,其从错误中恢复的能力(79% 对 12%)使其具备了运营可行性。它所需的训练数据还不到前者的一半,这证明了交互的质量(包括失败)胜过了完美例子的数量。
关键玩家与案例分析
银河通用与英伟达的合作并非孤立事件。它直接挑战了其他几家主要参与者的战略。
- 银河通用:一家总部位于北京的初创公司,已悄然成为“数据高效”机器人领域的领导者。其核心论点是,瓶颈不在于算力,而在于数据信号的质量。他们开发了专有的“失败捕获”硬件——专门用于检测和记录不稳定、滑动和碰撞时刻的传感器。其 CEO 李伟博士公开表示:“我们不想要一个能在模拟器中玩杂耍的机器人。我们想要一个能从杂乱货架上拿起一个湿滑的盒子而不掉落的机器人。”
- 英伟达:英伟达的角色不仅是硬件提供商,更是生态系统赋能者。其 Omniverse 平台和 Isaac Sim 是模拟环境的支柱。由 Anima Anandkumar 博士领导的英伟达研究团队的关键贡献在于开发了“可微分物理模拟器”,它允许梯度流经整个模拟过程。