技术深度解析
朱玉可的“数据金字塔”建立在三个截然不同但相互连接的层级之上,每一层都针对其他层的特定弱点。底层——互联网视频——最丰富但也最嘈杂。YouTube、TikTok和监控摄像头提供了数十亿小时的人类活动,但缺乏动作标签、本体感觉反馈和物理上下文。中间层——合成数据——从物理模拟器(NVIDIA Isaac Gym、MuJoCo、PyBullet)生成,为状态、动作和奖励提供完美的真实基准,但存在模拟到现实的差距:模拟物理永远无法完美匹配现实。顶层——真实机器人数据——最准确但收集成本最高,需要人类遥操作或动作捕捉设置,这些方法难以规模化。
朱玉可的突破在于“世界模型”架构,它充当数据海绵。与将每种数据类型分开处理的传统模型不同,世界模型是一个大型神经网络,训练用于在给定当前状态和动作的情况下预测下一个状态。它学习一个潜在表示,同时编码物理动力学、物体可供性和人类运动先验。当输入互联网视频时,它学习预测人体姿态;当输入合成数据时,它学习模拟物理;当输入真实机器人数据时,它学习纠正模拟到现实的差异。然后,该模型生成“想象”的训练轨迹——物理上合理且任务相关的合成轨迹——用于通过强化学习训练机器人策略。
SONIC项目(可扩展全向导航与交互控制器)就是这一方法的例证。使用配备60台摄像机的Vicon动作捕捉系统,朱玉可的团队在多样化环境中(楼梯、斜坡、不平坦地形、狭窄走廊)记录了超过10000小时的人类全身运动。这些数据被输入到一个世界模型中,该模型学习了人类运动动力学的潜在表示。使用这个世界模型作为奖励信号训练的策略,在真实人形机器人(Unitree H1)上实现了零样本迁移,无需微调。该控制器能够处理1.5米/秒的行走、3.0米/秒的奔跑、跳过障碍物以及从推力中恢复——所有这些都不需要特定任务的奖励工程。
| 数据类型 | 数据量(小时) | 每小时成本 | 模拟到现实差距 | 动作标签 | 本体感觉 |
|---|---|---|---|---|---|
| 互联网视频 | 10^9+ | $0 | 高 | 无 | 无 |
| 合成数据(Isaac Gym) | 10^6+ | $0.01 | 中等 | 完美 | 完美 |
| 真实机器人遥操作 | 10^3 | $500 | 无 | 完美 | 完美 |
| 动作捕捉(SONIC) | 10^4 | $200 | 低 | 完美 | 部分 |
数据要点: 动作捕捉为全身控制提供了最佳的成本与质量比,以遥操作40%的成本提供了10倍的数据量,而合成数据便宜10000倍但需要世界模型校正。金字塔策略利用了这一层级结构,用昂贵的数据锚定模型,用廉价的数据扩展覆盖范围。
关键参与者与案例研究
朱玉可并非唯一解决人形机器人数据问题的人,但他的方法与众不同。该领域已收敛于三种竞争策略:
1. 遥操作优先方法(Tesla、Figure AI、1X Technologies): 这些公司依赖人类操作员佩戴VR头显和触觉手套远程控制机器人,生成高质量的动作数据。据报道,Tesla的Optimus团队每月收集数千小时的遥操作数据,但规模化成本高昂——每小时需要一名熟练操作员,且数据是任务特定的。Figure AI最近展示了一台机器人折叠衣物,但底层策略需要500多小时的遥操作数据才能完成这一单一任务。
2. 模拟优先方法(NVIDIA、Google DeepMind、MIT CSAIL): 这些团队使用大规模模拟环境生成合成数据。NVIDIA的Isaac Gym可以在几天内生成数百万小时的数据,但模拟到现实的差距仍然是一个基本挑战。Google的RT-2模型在网页规模的视频和文本上训练,但其在机器人上的物理执行在新型物体上仍有30%的失败率。MIT的Pulkit Agrawal博士已经证明,模拟训练的策略通常在现实世界的摩擦变化或光照变化下失败。
3. 数据海绵方法(朱玉可、UT Austin): 通过将三种数据类型与世界模型结合,朱玉可的方法避免了每种方法的弱点。SONIC项目的10000小时动作捕捉数据集已在GitHub上公开(仓库:'sonic-mocap-dataset',2300颗星,积极维护),世界模型代码也已开源(仓库:'world-sponge',1800颗星)。这种透明度吸引了来自UC Berkeley、Stanford和ETH Zurich的合作者。
| 方法 | 代表 | 数据成本(每1000小时) | 任务泛化能力 | 模拟到现实成功率 |
|---|---|---|---|---|
| 遥操作 | Tesla Optimus | $500,000 | 低 | 不适用 |
| 模拟 | NVIDIA Isaac Gym | $10 | 中等 | 中等 |
| 数据海绵 | Zhu Yuke / UT Austin | $200,000(含动作捕捉) | 高 | 高 |