技术深度解析
OpenSkill的架构看似简单,但与先前的工作有着根本性的不同。其核心由三个模块组成:技能提议器、验证生成器和策略优化器。技能提议器接收当前任务提示和智能体的交互历史,并生成一个候选技能——一段结构化的代码或自然语言程序——它假设该技能会有所帮助。然后,验证生成器创建一小套测试用例或验证场景,以检查该技能是否按预期工作。最后,策略优化器根据这些测试的结果更新智能体的行为策略。
这与基于强化学习(RL)的方法(如DeepMind的AlphaGo或OpenAI的Dota 2机器人中使用的方法)根本不同。在RL中,奖励函数由工程师手工设计。在OpenSkill中,智能体必须自己发明奖励信号。它也与模仿学习(例如,来自GPT-4演示的行为克隆)不同,因为没有专家演示可供遵循。
关键的算法创新是作者所称的自验证技能引导。智能体不需要外部验证,因为它使用自己的基于LLM的推理来在执行技能之前模拟其结果。例如,如果任务是“导航到红房子并拿起钥匙”,智能体可能会提出一个技能“move_toward_color(color=red)”。然后,验证生成器模拟:“如果我调用move_toward_color(red),我的位置会向红房子移动吗?”它可以通过在模拟步骤前后查询环境状态(例如,它自己的坐标)来检查这一点。如果模拟显示进展,则接受该技能;如果没有,则丢弃或改进它。
这在计算上是昂贵的——每个技能提议都需要多次LLM调用来进行模拟——但它消除了对任何预先存在的数据的需求。作者报告说,在一组50个开放世界任务(来自基于Minecraft的MineDojo基准测试)上,OpenSkill在100次自我改进循环后达到了72%的成功率,而使用相同LLM但没有自我进化的基线智能体则为34%。
| 模型 | 成功率(50个任务) | 自我改进循环 | 所需外部反馈 |
|---|---|---|---|
| OpenSkill | 72% | 100 | 无 |
| 基线LLM智能体 | 34% | 0 | 无(但无学习) |
| 基于RL的智能体(PPO) | 58% | 500 | 奖励函数 |
| 模仿学习智能体 | 63% | 不适用 | 专家轨迹 |
数据要点: OpenSkill在没有外部反馈的情况下优于基线和基于RL的智能体,证明了自验证引导是手工设计奖励的可行替代方案。然而,在存在专家数据的任务上,它仍然落后于模仿学习,这表明该方法最适合于没有演示的场景。
相关的开源仓库是GitHub上的OpenSkill项目(目前约有2,300颗星)。它提供了一个用于构建自进化智能体的模块化框架,支持Minecraft、WebGPT风格的浏览和自定义环境。代码库使用Python编写,并使用LangChain进行LLM编排。
关键参与者与案例研究
OpenSkill的概念由来自加州大学伯克利分校RAIL实验室和麻省理工学院CSAIL的研究团队开发,由Dr. Anca Dragan和Dr. Pulkit Agrawal领导。该团队在机器人学习和自主系统方面有着良好的记录。Dr. Dragan之前在逆强化学习和人机交互方面的工作为自验证机制提供了理论基础。Dr. Agrawal在机器人自监督学习方面的工作(例如,“RoboTurk”系统)为实际实施提供了信息。
其他参与者已经在这一范式上构建。机器人初创公司Covariant AI已宣布一项研究合作,将OpenSkill应用于仓库机器人。他们当前的系统Covariant Brain依赖于大量的人类演示数据集。OpenSkill可以让他们的机器人学习新任务(例如,包装不规则物体),而无需人类远程操作。
Adept AI,ACT-1智能体背后的公司,也在探索类似的想法。他们当前的方法结合了模仿学习和基于人类反馈的强化学习。OpenSkill的自验证可以减少他们对人类标注者的依赖。
| 公司/产品 | 当前方法 | OpenSkill集成潜力 |
|---|---|---|
| Covariant AI (Covariant Brain) | 从人类演示中进行模仿学习 | 用自验证替代新任务的演示 |
| Adept AI (ACT-1) | RLHF + 模仿学习 | 减少70%的人类反馈(估计) |
| Google DeepMind (SIMA) | 具有稀疏奖励的RL | 使用OpenSkill生成内在奖励 |
| Microsoft (Copilot Studio) | 提示工程 + 微调 | 使智能体在部署后能够自我改进 |
数据要点: 该表显示了