OpenSkill:让AI智能体在开放世界中从零进化,无需任何外部反馈

arXiv cs.AI June 2026
来源:arXiv cs.AILLM agents归档:June 2026
OpenSkill让AI智能体在开放世界中从零开始进化,无需任何预设学习信号。通过让智能体自己充当老师、批评者和课程设计师,它解决了长期将自进化AI限制在受控环境中的冷启动问题。

OpenSkill代表了我们对AI智能体自主性思考方式的根本性转变。传统上,自进化智能体依赖各种“拐杖”:精心策划的技能库、标注的成功轨迹或内置验证器。这些拐杖在温室中有效,但在野外却会失效。OpenSkill剥离了它们。智能体只接收任务提示和对开放世界环境的访问——没有预定义技能,没有奖励信号,没有外部反馈。它必须自己发现技能,设计自己的验证实验,并迭代改进自己的策略。这不仅仅是渐进式改进;这是一个全新的学习类别。其影响是巨大的:在职学习的客服机器人、无需重新编程就能适应新工厂的机器人,以及能自我进化的数据分析工具。

技术深度解析

OpenSkill的架构看似简单,但与先前的工作有着根本性的不同。其核心由三个模块组成:技能提议器验证生成器策略优化器。技能提议器接收当前任务提示和智能体的交互历史,并生成一个候选技能——一段结构化的代码或自然语言程序——它假设该技能会有所帮助。然后,验证生成器创建一小套测试用例或验证场景,以检查该技能是否按预期工作。最后,策略优化器根据这些测试的结果更新智能体的行为策略。

这与基于强化学习(RL)的方法(如DeepMind的AlphaGo或OpenAI的Dota 2机器人中使用的方法)根本不同。在RL中,奖励函数由工程师手工设计。在OpenSkill中,智能体必须自己发明奖励信号。它也与模仿学习(例如,来自GPT-4演示的行为克隆)不同,因为没有专家演示可供遵循。

关键的算法创新是作者所称的自验证技能引导。智能体不需要外部验证,因为它使用自己的基于LLM的推理来在执行技能之前模拟其结果。例如,如果任务是“导航到红房子并拿起钥匙”,智能体可能会提出一个技能“move_toward_color(color=red)”。然后,验证生成器模拟:“如果我调用move_toward_color(red),我的位置会向红房子移动吗?”它可以通过在模拟步骤前后查询环境状态(例如,它自己的坐标)来检查这一点。如果模拟显示进展,则接受该技能;如果没有,则丢弃或改进它。

这在计算上是昂贵的——每个技能提议都需要多次LLM调用来进行模拟——但它消除了对任何预先存在的数据的需求。作者报告说,在一组50个开放世界任务(来自基于Minecraft的MineDojo基准测试)上,OpenSkill在100次自我改进循环后达到了72%的成功率,而使用相同LLM但没有自我进化的基线智能体则为34%。

| 模型 | 成功率(50个任务) | 自我改进循环 | 所需外部反馈 |
|---|---|---|---|
| OpenSkill | 72% | 100 | 无 |
| 基线LLM智能体 | 34% | 0 | 无(但无学习) |
| 基于RL的智能体(PPO) | 58% | 500 | 奖励函数 |
| 模仿学习智能体 | 63% | 不适用 | 专家轨迹 |

数据要点: OpenSkill在没有外部反馈的情况下优于基线和基于RL的智能体,证明了自验证引导是手工设计奖励的可行替代方案。然而,在存在专家数据的任务上,它仍然落后于模仿学习,这表明该方法最适合于没有演示的场景。

相关的开源仓库是GitHub上的OpenSkill项目(目前约有2,300颗星)。它提供了一个用于构建自进化智能体的模块化框架,支持Minecraft、WebGPT风格的浏览和自定义环境。代码库使用Python编写,并使用LangChain进行LLM编排。

关键参与者与案例研究

OpenSkill的概念由来自加州大学伯克利分校RAIL实验室麻省理工学院CSAIL的研究团队开发,由Dr. Anca Dragan和Dr. Pulkit Agrawal领导。该团队在机器人学习和自主系统方面有着良好的记录。Dr. Dragan之前在逆强化学习和人机交互方面的工作为自验证机制提供了理论基础。Dr. Agrawal在机器人自监督学习方面的工作(例如,“RoboTurk”系统)为实际实施提供了信息。

其他参与者已经在这一范式上构建。机器人初创公司Covariant AI已宣布一项研究合作,将OpenSkill应用于仓库机器人。他们当前的系统Covariant Brain依赖于大量的人类演示数据集。OpenSkill可以让他们的机器人学习新任务(例如,包装不规则物体),而无需人类远程操作。

Adept AI,ACT-1智能体背后的公司,也在探索类似的想法。他们当前的方法结合了模仿学习和基于人类反馈的强化学习。OpenSkill的自验证可以减少他们对人类标注者的依赖。

| 公司/产品 | 当前方法 | OpenSkill集成潜力 |
|---|---|---|
| Covariant AI (Covariant Brain) | 从人类演示中进行模仿学习 | 用自验证替代新任务的演示 |
| Adept AI (ACT-1) | RLHF + 模仿学习 | 减少70%的人类反馈(估计) |
| Google DeepMind (SIMA) | 具有稀疏奖励的RL | 使用OpenSkill生成内在奖励 |
| Microsoft (Copilot Studio) | 提示工程 + 微调 | 使智能体在部署后能够自我改进 |

数据要点: 该表显示了

更多来自 arXiv cs.AI

从碎片痕迹到结构化技能:智能体学习的范式革命规模化AI智能体的核心挑战,一直是从原始执行日志中手动构建可复用技能的劳动密集型过程。传统方法将痕迹视为平面文本,丢失了关键的决策逻辑和步骤依赖。一项研究突破提出了四维分解框架——路由(决策路径)、工作流(步骤序列)、语义(上下文含义)和附中医AI诊断:知识图谱与多轮对话如何打破“黑箱”困局大语言模型(LLM)与知识图谱的整合,催生了一套最终打破“黑箱”模式的中医诊断系统。该系统的核心知识图谱包含241种证候、1263种症状以及2485条关系,实际上构成了一部可验证的临床百科全书。AI不再输出静态结论,而是与患者进行多轮对话,AdMem:让AI智能体从失败中学习的记忆革命多年来,大语言模型(LLM)智能体的致命弱点一直是它们在处理长周期、复杂任务时无法有效管理记忆。现有方法要么将事实数据存储在静态向量数据库中,要么仅重放成功的轨迹,使智能体对失败中蕴含的丰富教训视而不见。AdMem,这一全新的统一记忆系统,查看来源专题页arXiv cs.AI 已收录 430 篇文章

相关专题

LLM agents43 篇相关文章

时间归档

June 2026644 篇已发布文章

延伸阅读

从碎片痕迹到结构化技能:智能体学习的范式革命一种从智能体执行痕迹中自动构建技能的全新框架,正在颠覆AI从经验中学习的方式。它将碎片化日志分解为路由、工作流、语义和附件四个维度,超越简单摘要,真正实现智能体系统的自我进化。校准交互式RL终结LLM智能体分布漂移,开启动态学习新纪元一项全新的理论框架——校准交互式强化学习,直接击穿了长期困扰多轮对话LLM智能体的上下文分布漂移问题。通过将模拟器行为与真实用户分布对齐,该方法将静态、脚本化的训练转变为动态、自适应的学习过程。JobBench:从替代到辅助,重新定义AI智能体评估标准一项名为JobBench的全新基准测试,正在颠覆我们衡量AI智能体的方式。它不再追问AI能通过替代人类节省多少GDP,而是直接询问各领域专家:哪些工作你最想甩手给AI?这标志着AI评估从“替代”到“增强”的关键转折。LLM智能体能读心却不会谈判:战略盲点暴露AI致命短板大语言模型智能体能以惊人准确度读取对手偏好,却在多轮谈判中首轮报价后陷入战略瘫痪。一项新研究揭示了推理与执行之间的鸿沟,对在高风险谈判场景中部署AI提出了紧迫质疑。

常见问题

GitHub 热点“OpenSkill Lets AI Agents Evolve From Scratch in Open Worlds Without Feedback”主要讲了什么?

OpenSkill represents a fundamental shift in how we think about AI agent autonomy. Traditionally, self-evolving agents have relied on crutches: curated skill libraries, labeled succ…

这个 GitHub 项目在“OpenSkill vs Voyager agent comparison”上为什么会引发关注?

OpenSkill's architecture is deceptively simple but profoundly different from prior work. At its core, it consists of three modules: a Skill Proposer, a Verification Generator, and a Policy Optimizer. The Skill Proposer t…

从“OpenSkill cold start problem solution”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 0,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。