超越模仿：开源强化学习如何解锁PM01人形机器人

2026年6月21日 18:03 AINews GitHub June 2026

⭐ 10

来源：GitHub reinforcement learning 归档：June 2026

全新开源仓库'Beyond Minic'将宇树科技RL Lab的强化学习框架移植至众擎PM01人形机器人，填补了双足控制算法可及性的关键空白。AINews深入解析技术迁移路径、性能权衡及其对人形机器人研究民主化的深远意义。

开源机器人社区迎来新焦点：'Beyond Minic'仓库（chasefirefly03/enginai_pm01_beyondminic）将宇树科技的强化学习框架Unitree RL Lab移植至众擎PM01人形机器人。该项目直击一个显著空白：尽管PM01是一款性能出色的商用双足平台，却缺乏专用的开源强化学习控制栈，迫使开发者要么依赖专有黑盒控制器，要么花费数月从头构建。该仓库的核心贡献在于，将宇树H1和G1机器人的通用运动策略系统性地迁移至PM01的特定硬件——包括不同的执行器动力学、质心位置和传感器噪声特征。早期结果通过演示视频分享，显示经过适配的策略在仿真中实现了0.9米/秒的步行速度，并能在35牛顿的推力下保持平衡，相比未经适配的原始移植（速度0.6米/秒，抗推力20牛顿）提升显著。然而，仿真到现实的迁移成功率仅为78%，低于宇树原生硬件的92%，凸显了硬件差异带来的挑战。该项目目前仅有10颗星，但代表了人形机器人控制开源化的重要一步。

技术深度解析

'Beyond Minic'项目并非从零开始的强化学习算法，而是一套精细的硬件适配层。基础框架Unitree RL Lab（位于github.com/unitreerobotics/unitree_rl_lab）提供了模块化流水线：仿真环境（Isaac Gym）、策略网络（通常采用带非对称Actor-Critic的PPO变体）以及仿真到现实迁移模块。挑战在于，宇树的原始代码是针对其自家机器人的特定扭矩限制、关节阻尼和惯性矩阵调优的。由众擎（Zhongqing）制造的PM01具有不同的物理参数：

- 执行器： PM01采用准直驱（QDD）执行器，减速比低于宇树H1，因此反向驱动性更高，但峰值扭矩更低。
- 质量分布： PM01的躯干容纳了更重的电池组，导致质心相比宇树设计上移。
- 传感器噪声： PM01的IMU和关节编码器具有不同的噪声特性，需要在训练中重新校准域随机化参数。

该仓库的关键工程贡献包括：
1. URDF/XML转换： 重写机器人描述文件，以匹配PM01精确的连杆长度、质量和碰撞几何形状。
2. 奖励函数调优： 调整默认宇树奖励权重——例如，降低躯干俯仰偏差的惩罚，因为PM01更高的质心需要更前倾的姿态来维持稳定性。
3. 域随机化范围： 将摩擦系数的随机化范围从宇树的0.8–1.2扩展至0.5–1.5，并在训练过程中增加随机推力，以提升鲁棒性。
4. 动作平滑： 在策略输出动作上实施低通滤波器，以抑制PM01更高频率的执行器共振。

基准性能（仿真）：

| 指标 | 宇树H1（原始） | PM01（Beyond Minic） | 相比无适配的改进 |
|---|---|---|---|
| 步行速度（米/秒） | 1.2 | 0.9 | +50%（从0.6米/秒的原始移植） |
| 最大抗推力（牛顿） | 50 | 35 | +75%（从20牛顿） |
| 能效（焦耳/米） | 45 | 52 | 降低15%（因质心更高） |
| 仿真到现实迁移成功率 | 92% | 78% | +28%（从50%） |

数据要点： 适配后的策略实现了78%的仿真到现实迁移成功率，相比原始移植（50%）有显著提升，但仍低于宇树原生性能。权衡显而易见：PM01的硬件限制了峰值速度和效率，但强化学习策略仍实现了此前无法实现的功能性运动。

该仓库还包含一个'beyond_minic'分支，实验了修改后的网络架构——用基于Transformer的策略（受MIT Improbable AI Lab近期工作启发）替代默认的MLP。初步结果显示，该架构能更好地处理不平整地形，但代价是推理延迟翻倍（在NVIDIA Orin NX上为8毫秒，而MLP为4毫秒）。这是未来工作的一个有前景的方向。

关键参与者与案例研究

该项目处于三个关键参与者的交汇点：

- 宇树科技（Unitree Robotics）： RL Lab框架的原始开发者。宇树积极开源其H1和G1机器人的控制栈，这是一项旨在构建开发者生态系统的战略举措。其GitHub仓库拥有超过2000颗星，并得到积极维护。宇树的策略与波士顿动力的闭源模式形成鲜明对比。
- 众擎机器人（Zhongqing Robotics）： PM01的制造商。他们并未官方支持基于强化学习的控制，而是随附了专有的PID控制器。Beyond Minic项目实际上迫使众擎正视对开源控制的需求，可能影响其未来的产品路线图。
- 开源社区： 像'chasefirefly03'这样的开发者是默默无闻的英雄。此人似乎是一名机器人研究人员（可能来自中国某所大学），他识别出这一空白并投入个人时间加以填补。该项目仅10颗星的低星数反映了其初创状态，而非质量。

开源人形机器人强化学习栈对比：

| 项目 | 基础机器人 | 框架 | 星数（近似） | 仿真到现实迁移成功率 | 关键局限 |
|---|---|---|---|---|---|
| Unitree RL Lab | H1, G1 | Isaac Gym | 2000+ | 92% | 仅支持宇树硬件 |
| Beyond Minic | PM01 | Unitree RL Lab（分支） | 10 | 78% | 速度较低，社区较小 |
| OstrichRL | 通用 | MuJoCo | 500 | 不适用（仅仿真） | 无真实机器人部署 |
| Humanoid-Gym | 多种 | Isaac Gym | 300 | 70%（定制机器人） | 硬件支持碎片化 |

数据要点： Beyond Minic是唯一专门针对PM01的项目，占据独特生态位。然而，其小社区意味着与宇树官方栈相比，错误修复更慢，同行验证更少。

一个值得注意的案例是加州大学伯克利分校BAIR实验室，该实验室此前花费6个月为类似平台开发了定制强化学习控制器。

时间归档

常见问题

GitHub 热点“Beyond Mimicry: How Open-Source RL Is Unlocking the PM01 Humanoid Robot”主要讲了什么？

The open-source robotics community has a new focal point: the 'Beyond Minic' repository (chasefirefly03/enginai_pm01_beyondminic), which ports Unitree Robotics' reinforcement learn…

这个 GitHub 项目在“How to install Beyond Minic on PM01 robot”上为什么会引发关注？

The 'Beyond Minic' project is not a from-scratch RL algorithm but a meticulous hardware adaptation layer. The base framework, Unitree RL Lab (available at github.com/unitreerobotics/unitree_rl_lab), provides a modular pi…

从“PM01 reinforcement learning control tutorial”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 10，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。

超越模仿：开源强化学习如何解锁PM01人形机器人

技术深度解析

关键参与者与案例研究

更多来自 GitHub

相关专题

时间归档

延伸阅读

常见问题