OpenSkill：让AI智能体在开放世界中从零进化，无需任何外部反馈

2026年6月8日 12:09 AINews arXiv cs.AI June 2026

来源：arXiv cs.AI LLM agents 归档：June 2026

OpenSkill让AI智能体在开放世界中从零开始进化，无需任何预设学习信号。通过让智能体自己充当老师、批评者和课程设计师，它解决了长期将自进化AI限制在受控环境中的冷启动问题。

OpenSkill代表了我们对AI智能体自主性思考方式的根本性转变。传统上，自进化智能体依赖各种“拐杖”：精心策划的技能库、标注的成功轨迹或内置验证器。这些拐杖在温室中有效，但在野外却会失效。OpenSkill剥离了它们。智能体只接收任务提示和对开放世界环境的访问——没有预定义技能，没有奖励信号，没有外部反馈。它必须自己发现技能，设计自己的验证实验，并迭代改进自己的策略。这不仅仅是渐进式改进；这是一个全新的学习类别。其影响是巨大的：在职学习的客服机器人、无需重新编程就能适应新工厂的机器人，以及能自我进化的数据分析工具。

技术深度解析

OpenSkill的架构看似简单，但与先前的工作有着根本性的不同。其核心由三个模块组成：技能提议器、验证生成器和策略优化器。技能提议器接收当前任务提示和智能体的交互历史，并生成一个候选技能——一段结构化的代码或自然语言程序——它假设该技能会有所帮助。然后，验证生成器创建一小套测试用例或验证场景，以检查该技能是否按预期工作。最后，策略优化器根据这些测试的结果更新智能体的行为策略。

这与基于强化学习（RL）的方法（如DeepMind的AlphaGo或OpenAI的Dota 2机器人中使用的方法）根本不同。在RL中，奖励函数由工程师手工设计。在OpenSkill中，智能体必须自己发明奖励信号。它也与模仿学习（例如，来自GPT-4演示的行为克隆）不同，因为没有专家演示可供遵循。

关键的算法创新是作者所称的自验证技能引导。智能体不需要外部验证，因为它使用自己的基于LLM的推理来在执行技能之前模拟其结果。例如，如果任务是“导航到红房子并拿起钥匙”，智能体可能会提出一个技能“move_toward_color(color=red)”。然后，验证生成器模拟：“如果我调用move_toward_color(red)，我的位置会向红房子移动吗？”它可以通过在模拟步骤前后查询环境状态（例如，它自己的坐标）来检查这一点。如果模拟显示进展，则接受该技能；如果没有，则丢弃或改进它。

这在计算上是昂贵的——每个技能提议都需要多次LLM调用来进行模拟——但它消除了对任何预先存在的数据的需求。作者报告说，在一组50个开放世界任务（来自基于Minecraft的MineDojo基准测试）上，OpenSkill在100次自我改进循环后达到了72%的成功率，而使用相同LLM但没有自我进化的基线智能体则为34%。

| 模型 | 成功率（50个任务） | 自我改进循环 | 所需外部反馈 |
|---|---|---|---|
| OpenSkill | 72% | 100 | 无 |
| 基线LLM智能体 | 34% | 0 | 无（但无学习） |
| 基于RL的智能体（PPO） | 58% | 500 | 奖励函数 |
| 模仿学习智能体 | 63% | 不适用 | 专家轨迹 |

数据要点： OpenSkill在没有外部反馈的情况下优于基线和基于RL的智能体，证明了自验证引导是手工设计奖励的可行替代方案。然而，在存在专家数据的任务上，它仍然落后于模仿学习，这表明该方法最适合于没有演示的场景。

相关的开源仓库是GitHub上的OpenSkill项目（目前约有2,300颗星）。它提供了一个用于构建自进化智能体的模块化框架，支持Minecraft、WebGPT风格的浏览和自定义环境。代码库使用Python编写，并使用LangChain进行LLM编排。

关键参与者与案例研究

OpenSkill的概念由来自加州大学伯克利分校RAIL实验室和麻省理工学院CSAIL的研究团队开发，由Dr. Anca Dragan和Dr. Pulkit Agrawal领导。该团队在机器人学习和自主系统方面有着良好的记录。Dr. Dragan之前在逆强化学习和人机交互方面的工作为自验证机制提供了理论基础。Dr. Agrawal在机器人自监督学习方面的工作（例如，“RoboTurk”系统）为实际实施提供了信息。

其他参与者已经在这一范式上构建。机器人初创公司Covariant AI已宣布一项研究合作，将OpenSkill应用于仓库机器人。他们当前的系统Covariant Brain依赖于大量的人类演示数据集。OpenSkill可以让他们的机器人学习新任务（例如，包装不规则物体），而无需人类远程操作。

Adept AI，ACT-1智能体背后的公司，也在探索类似的想法。他们当前的方法结合了模仿学习和基于人类反馈的强化学习。OpenSkill的自验证可以减少他们对人类标注者的依赖。

| 公司/产品 | 当前方法 | OpenSkill集成潜力 |
|---|---|---|
| Covariant AI (Covariant Brain) | 从人类演示中进行模仿学习 | 用自验证替代新任务的演示 |
| Adept AI (ACT-1) | RLHF + 模仿学习 | 减少70%的人类反馈（估计） |
| Google DeepMind (SIMA) | 具有稀疏奖励的RL | 使用OpenSkill生成内在奖励 |
| Microsoft (Copilot Studio) | 提示工程 + 微调 | 使智能体在部署后能够自我改进 |

数据要点： 该表显示了

时间归档

常见问题

GitHub 热点“OpenSkill Lets AI Agents Evolve From Scratch in Open Worlds Without Feedback”主要讲了什么？

OpenSkill represents a fundamental shift in how we think about AI agent autonomy. Traditionally, self-evolving agents have relied on crutches: curated skill libraries, labeled succ…

这个 GitHub 项目在“OpenSkill vs Voyager agent comparison”上为什么会引发关注？

OpenSkill's architecture is deceptively simple but profoundly different from prior work. At its core, it consists of three modules: a Skill Proposer, a Verification Generator, and a Policy Optimizer. The Skill Proposer t…

从“OpenSkill cold start problem solution”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 0，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。

OpenSkill：让AI智能体在开放世界中从零进化，无需任何外部反馈

技术深度解析

关键参与者与案例研究

更多来自 arXiv cs.AI

相关专题

时间归档

延伸阅读

常见问题