技术深度解析
核心创新在于一个统一的神经网络策略,它将高维感官输入——关节位置、扭矩、IMU数据和视觉——直接映射到所有自由度(DoF)的电机指令上。这与经典方法形成鲜明对比:一个运动控制器(例如用于行走的模型预测控制)、一个独立的平衡控制器(例如用于躯干稳定的逆动力学)以及一个操作规划器(例如用于手臂和手的轨迹优化)。
架构: 该模型是一个深度循环神经网络(很可能是Transformer或LSTM变体),通过基于模型的强化学习(MBRL)进行训练。它使用一个学习到的世界模型——一个根据当前状态和动作预测下一状态的神经网络——在物理模拟器(如Isaac Gym或MuJoCo)中模拟数千年的经验。世界模型使策略能够“想象”其动作的后果,从而实现对复杂全身协调的高效样本学习。奖励函数经过精心设计:包括任务完成度(例如插销深度)、能效(扭矩最小化)、稳定性(质心投影在支撑多边形内)和平滑度(惩罚加加速度)等项。
关键工程洞察: 该策略并未明确区分“平衡”和“操作”。相反,它学会了向后移动臀部并稍微弯曲膝盖可以为手臂施加侧向力创造更稳定的基础。这种涌现行为——利用腿部作为配重——是任何模块化控制器都无法发现的。
相关开源工作: 最接近的公开仓库是GitHub上的“Whole-Body Control via Task-Space Decomposition”项目(约1,200星),它提供了一个使用二次规划结合运动与操作的框架。然而,新方法更进一步,用学习到的策略取代了优化层。另一个相关仓库是“Isaac Gym Reinforcement Learning”(NVIDIA,4,500+星),它提供了用于训练此类策略的模拟基础设施。
性能数据: 下表将新的全身策略与传统模块化控制在人形机器人操作的标准基准套件上进行了比较:
| 任务 | 模块化控制(成功率) | 全身策略(成功率) | 提升幅度 |
|---|---|---|---|
| 插销入孔(紧公差) | 72% | 94% | +22% |
| 线缆穿过小孔 | 45% | 81% | +36% |
| 重箱搬运+精确放置 | 38% | 89% | +51% |
| 站立使用工具(电钻) | 61% | 92% | +31% |
| 平均任务完成时间 | 12.4秒 | 8.1秒 | -35% |
数据要点: 全身策略在性能上显著优于模块化控制,尤其是在需要同时进行粗大和精细运动协调的任务上。在搬运与放置任务上51%的提升凸显了动态腿部和腰部调整在使手臂和手能够在负载下执行精确对准方面的关键作用。
关键参与者与案例研究
多个组织正竞相将全身控制商业化,各自采取不同策略:
- Figure AI(加利福尼亚州桑尼韦尔):他们的Figure 02人形机器人使用在模拟中训练的学习型全身策略。他们已展示该机器人在携带30公斤箱子的同时行走,然后以毫米级精度将其放置在货架上。他们的方法强调通过域随机化实现从模拟到现实的迁移。
- Agility Robotics(俄勒冈州科瓦利斯):他们的Digit机器人最初专注于双足运动,最近增加了手臂操作功能。他们采用混合方法:基于模型的运动控制器加上学习型操作策略,但正朝着完全端到端训练的方向发展。
- Boston Dynamics(马萨诸塞州沃尔瑟姆):他们的Atlas机器人(现已改为电动版)展示了最具动态性的全身行为——跑酷、后空翻和重物操作。然而,他们的控制栈仍主要基于模型预测控制(MPC),而非完全学习型。
- 1X Technologies(挪威奥斯陆):他们的Neo人形机器人采用了类似于该突破的强化学习方法,专注于家务任务。他们已开源了部分训练流程。
| 公司 | 机器人 | 控制方法 | 关键差异化优势 | 技术就绪度(TRL) |
|---|---|---|---|---|
| Figure AI | Figure 02 | 端到端RL + 世界模型 | 最快的模拟到现实迁移 | 6-7(原型机现场试验中) |
| Agility Robotics | Digit | 混合(MPC用于运动,RL用于操作) | 经过验证的物流部署 | 7(商业化) |
| Boston Dynamics | Atlas(电动版) | MPC + 优化 | 最具动态性的行为 | 5-6(研究阶段) |
| 1X Technologies | Neo | 端到端RL | 开源训练工具 | 5(原型机) |
数据要点: Figure AI和1X正引领向完全学习型全身策略的转变,而Boston Dynamics和Agility则保留了经典控制的元素。