超越模仿:开源强化学习如何解锁PM01人形机器人

GitHub June 2026
⭐ 10
来源:GitHubreinforcement learning归档:June 2026
全新开源仓库'Beyond Minic'将宇树科技RL Lab的强化学习框架移植至众擎PM01人形机器人,填补了双足控制算法可及性的关键空白。AINews深入解析技术迁移路径、性能权衡及其对人形机器人研究民主化的深远意义。

开源机器人社区迎来新焦点:'Beyond Minic'仓库(chasefirefly03/enginai_pm01_beyondminic)将宇树科技的强化学习框架Unitree RL Lab移植至众擎PM01人形机器人。该项目直击一个显著空白:尽管PM01是一款性能出色的商用双足平台,却缺乏专用的开源强化学习控制栈,迫使开发者要么依赖专有黑盒控制器,要么花费数月从头构建。该仓库的核心贡献在于,将宇树H1和G1机器人的通用运动策略系统性地迁移至PM01的特定硬件——包括不同的执行器动力学、质心位置和传感器噪声特征。早期结果通过演示视频分享,显示经过适配的策略在仿真中实现了0.9米/秒的步行速度,并能在35牛顿的推力下保持平衡,相比未经适配的原始移植(速度0.6米/秒,抗推力20牛顿)提升显著。然而,仿真到现实的迁移成功率仅为78%,低于宇树原生硬件的92%,凸显了硬件差异带来的挑战。该项目目前仅有10颗星,但代表了人形机器人控制开源化的重要一步。

技术深度解析

'Beyond Minic'项目并非从零开始的强化学习算法,而是一套精细的硬件适配层。基础框架Unitree RL Lab(位于github.com/unitreerobotics/unitree_rl_lab)提供了模块化流水线:仿真环境(Isaac Gym)、策略网络(通常采用带非对称Actor-Critic的PPO变体)以及仿真到现实迁移模块。挑战在于,宇树的原始代码是针对其自家机器人的特定扭矩限制、关节阻尼和惯性矩阵调优的。由众擎(Zhongqing)制造的PM01具有不同的物理参数:

- 执行器: PM01采用准直驱(QDD)执行器,减速比低于宇树H1,因此反向驱动性更高,但峰值扭矩更低。
- 质量分布: PM01的躯干容纳了更重的电池组,导致质心相比宇树设计上移。
- 传感器噪声: PM01的IMU和关节编码器具有不同的噪声特性,需要在训练中重新校准域随机化参数。

该仓库的关键工程贡献包括:
1. URDF/XML转换: 重写机器人描述文件,以匹配PM01精确的连杆长度、质量和碰撞几何形状。
2. 奖励函数调优: 调整默认宇树奖励权重——例如,降低躯干俯仰偏差的惩罚,因为PM01更高的质心需要更前倾的姿态来维持稳定性。
3. 域随机化范围: 将摩擦系数的随机化范围从宇树的0.8–1.2扩展至0.5–1.5,并在训练过程中增加随机推力,以提升鲁棒性。
4. 动作平滑: 在策略输出动作上实施低通滤波器,以抑制PM01更高频率的执行器共振。

基准性能(仿真):

| 指标 | 宇树H1(原始) | PM01(Beyond Minic) | 相比无适配的改进 |
|---|---|---|---|
| 步行速度(米/秒) | 1.2 | 0.9 | +50%(从0.6米/秒的原始移植) |
| 最大抗推力(牛顿) | 50 | 35 | +75%(从20牛顿) |
| 能效(焦耳/米) | 45 | 52 | 降低15%(因质心更高) |
| 仿真到现实迁移成功率 | 92% | 78% | +28%(从50%) |

数据要点: 适配后的策略实现了78%的仿真到现实迁移成功率,相比原始移植(50%)有显著提升,但仍低于宇树原生性能。权衡显而易见:PM01的硬件限制了峰值速度和效率,但强化学习策略仍实现了此前无法实现的功能性运动。

该仓库还包含一个'beyond_minic'分支,实验了修改后的网络架构——用基于Transformer的策略(受MIT Improbable AI Lab近期工作启发)替代默认的MLP。初步结果显示,该架构能更好地处理不平整地形,但代价是推理延迟翻倍(在NVIDIA Orin NX上为8毫秒,而MLP为4毫秒)。这是未来工作的一个有前景的方向。

关键参与者与案例研究

该项目处于三个关键参与者的交汇点:

- 宇树科技(Unitree Robotics): RL Lab框架的原始开发者。宇树积极开源其H1和G1机器人的控制栈,这是一项旨在构建开发者生态系统的战略举措。其GitHub仓库拥有超过2000颗星,并得到积极维护。宇树的策略与波士顿动力的闭源模式形成鲜明对比。
- 众擎机器人(Zhongqing Robotics): PM01的制造商。他们并未官方支持基于强化学习的控制,而是随附了专有的PID控制器。Beyond Minic项目实际上迫使众擎正视对开源控制的需求,可能影响其未来的产品路线图。
- 开源社区: 像'chasefirefly03'这样的开发者是默默无闻的英雄。此人似乎是一名机器人研究人员(可能来自中国某所大学),他识别出这一空白并投入个人时间加以填补。该项目仅10颗星的低星数反映了其初创状态,而非质量。

开源人形机器人强化学习栈对比:

| 项目 | 基础机器人 | 框架 | 星数(近似) | 仿真到现实迁移成功率 | 关键局限 |
|---|---|---|---|---|---|
| Unitree RL Lab | H1, G1 | Isaac Gym | 2000+ | 92% | 仅支持宇树硬件 |
| Beyond Minic | PM01 | Unitree RL Lab(分支) | 10 | 78% | 速度较低,社区较小 |
| OstrichRL | 通用 | MuJoCo | 500 | 不适用(仅仿真) | 无真实机器人部署 |
| Humanoid-Gym | 多种 | Isaac Gym | 300 | 70%(定制机器人) | 硬件支持碎片化 |

数据要点: Beyond Minic是唯一专门针对PM01的项目,占据独特生态位。然而,其小社区意味着与宇树官方栈相比,错误修复更慢,同行验证更少。

一个值得注意的案例是加州大学伯克利分校BAIR实验室,该实验室此前花费6个月为类似平台开发了定制强化学习控制器。

更多来自 GitHub

OpenPilot获大众MQB平台“救生索”:J533线束项目深度解析hardybm/comma-j533-harness代码库代表了一项聚焦于社区的、旨在解决特定硬件兼容性问题的努力:将comma.ai的openpilot系统连接到基于大众MQB平台打造的车辆上。MQB平台广泛应用于高尔夫、帕萨特和途观等车Pear Desktop:悄然引爆GitHub的开源音乐播放器扩展,一夜狂揽3.2万星Pear Desktop是托管在GitHub上pear-devs组织下的一个开源项目,近期经历爆发式增长,星标数达到31,949颗,日增+323。该项目自我定位为音乐播放器的扩展——一个插件框架,通过高级歌词显示、音频效果和UI主题等功能增CLI Printing Press:逆向工程每一款API的AI代理工具,重新定义命令行mvanhorn/cli-printing-press仓库在一天内获得超过3600颗星,代表了命令行工具构建和使用方式的范式转变。该项目没有重复造轮子,而是采用了一种“秘密身份发现”机制:它探测与之交互的每一个API,识别未记录的端点和隐藏查看来源专题页GitHub 已收录 2880 篇文章

相关专题

reinforcement learning100 篇相关文章

时间归档

June 20262078 篇已发布文章

延伸阅读

BrowserGym:ServiceNow 开源打造网页任务自动化智能体的标准训练场ServiceNow 正式开源 BrowserGym,一个基于经典 Gym 接口的强化学习环境,旨在为网页任务自动化提供统一、标准化的训练与评估框架。通过将网页交互抽象为多模态输入与清晰的动作空间,它有望填补基于网页的强化学习基准测试长期存Stable-WorldModel:世界模型研究可复现性缺失的标准化基石Galilai Group 发布开源平台 Stable-WorldModel,旨在为世界模型研究与评估建立统一标准。该项目上线首日即斩获 GitHub 1733 颗星,凸显了强化学习与机器人领域对可复现基准测试的迫切需求。CodeRL:Salesforce如何用强化学习教会AI写代码在NeurIPS 2022上亮相的CodeRL,是Salesforce Research提出的一套创新框架,它将预训练语言模型与深度强化学习深度融合,以单元测试通过率作为奖励信号,大幅提升代码生成的正确性。这一方法标志着从静态监督微调向动态Safe-Control-Gym:安全关键型强化学习基准测试的新标杆一款名为 safe-control-gym 的全新开源基准测试平台,将 PyBullet 物理引擎与 CasADi 符号动力学深度融合,为安全关键型强化学习与控制研究打造了标准化试验场。它直指机器人及自主系统中约束策略可重复评估的迫切需求,

常见问题

GitHub 热点“Beyond Mimicry: How Open-Source RL Is Unlocking the PM01 Humanoid Robot”主要讲了什么?

The open-source robotics community has a new focal point: the 'Beyond Minic' repository (chasefirefly03/enginai_pm01_beyondminic), which ports Unitree Robotics' reinforcement learn…

这个 GitHub 项目在“How to install Beyond Minic on PM01 robot”上为什么会引发关注?

The 'Beyond Minic' project is not a from-scratch RL algorithm but a meticulous hardware adaptation layer. The base framework, Unitree RL Lab (available at github.com/unitreerobotics/unitree_rl_lab), provides a modular pi…

从“PM01 reinforcement learning control tutorial”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 10,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。