技术深度解析
双智能体协同进化架构是对单体LLM智能体的一次根本性颠覆。它不再让单个模型同时处理感知、推理、记忆和行动,而是将这些功能分解为两个相互作用的循环。
架构概览:
- 决策智能体(DA): 一个轻量级LLM(例如经过微调的LLaMA-3-8B),接收当前状态,从一组可用原语中选择行动,并可向技能库智能体查询相关的预习得技能。其上下文窗口保持较小,以确保快速推理。
- 技能库智能体(SLA): 一个独立的、更强大的LLM(例如GPT-4级别),异步运行。它监控DA的表现,分析失败轨迹,并生成新技能——这些技能以短小的参数化程序或自然语言配方形式表示。技能存储在一个按任务上下文和结果索引的向量数据库中。
协同进化机制:
两个智能体在反馈循环中运作:
1. DA尝试执行任务(例如:在迷宫中导航以获取钥匙,然后打开门)。
2. 如果失败,SLA分析失败原因,识别缺失的技能(例如“持钥匙时左转”),并生成候选技能。
3. 候选技能在沙盒环境中进行测试。如果它提高了成功率,则被添加到技能库中。
4. 随着时间的推移,DA学会更高效地查询技能库,而SLA学会生成更具泛化能力的技能。
关键工程创新:
- 技能表示: 技能以可组合的“技能程序”形式存储——这一概念借鉴自“Voyager”项目(一个开源的Minecraft智能体)。每个技能包含前置条件、后置条件以及一系列原语行动。GitHub仓库“Voyager”(已获超过8000颗星)开创了这种方法,而双智能体框架通过增加一个专门负责技能管理的智能体对其进行了扩展。
- 高效检索: SLA使用对比学习模型将技能描述和任务状态嵌入到共享的潜在空间中。检索通过近似最近邻搜索(使用FAISS)完成,即使在拥有超过10,000个技能的库中,查找时间也能低于10毫秒。
- 技能合并: 当两个技能存在重叠时(例如“开门”和“推门”),SLA可以将它们合并为一个更通用的“操作门”技能,从而减少技能库的膨胀。
基准测试表现:
该框架在“MineDojo”基准测试套件上进行了测试,该套件包含Minecraft中的长周期任务(100-500步)。结果令人瞩目:
| 模型 | 任务成功率(平均) | 完成步数 | 技能库大小(100个任务后) |
|---|---|---|---|
| 单体LLM智能体(GPT-4) | 18.2% | 412 | 不适用 |
| Voyager(单智能体技能库) | 34.7% | 287 | 142 |
| 双智能体协同进化(DA: LLaMA-3-8B, SLA: GPT-4) | 67.3% | 189 | 87 |
| 人类专家(基线) | 72.1% | 175 | 不适用 |
数据要点: 双智能体框架的成功率几乎是此前最佳方法(Voyager)的两倍,同时使用了更小、更快的决策智能体。技能库也更为紧凑,表明技能泛化能力更强。
关键参与者与案例研究
虽然双智能体协同进化框架是一项最新的学术贡献,但它建立在AI社区多个关键参与者的工作基础之上。
1. Voyager(MineDojo团队): 由NVIDIA和Caltech的研究人员领导的开源项目“Voyager”,首次展示了技能库在Minecraft中为LLM智能体带来的强大能力。他们的方法使用单个智能体同时执行行动和管理技能。双智能体框架是其直接演进,解决了Voyager的瓶颈:当技能库增长到约150个技能以上时,单个智能体会不堪重负。Voyager的GitHub仓库仍然是开发者的热门起点。
2. Google DeepMind的“Dreamer”和“MuZero”: 这些强化学习系统使用世界模型来规划和习得技能,但它们需要从头开始进行大量训练。双智能体框架提供了Dreamer所缺乏的“零样本”技能迁移能力。DeepMind最近发表了关于“Skill Transformer”的研究,该研究采用了类似的规划与技能执行分离方法,但依赖于离线数据集而非在线协同进化。
3. OpenAI的“Codex”和“函数调用”: OpenAI的API现在支持函数调用,这可以被视为技能库的一种原始形式。然而,技能是由开发者预定义的,而非自主习得。双智能体框架可以作为函数调用之上的一个层进行集成,使智能体能够动态创建新函数。
4. 机器人实验室(Boston Dynamics、Tesla): 两家公司都在探索基于LLM的机器人控制。Boston Dynamics的“Spot”机器人现在可以遵循自然语言指令,但它无法即时学习新的操作技能。Tesla的Optimus项目也面临类似的限制。双智能体框架可以使机器人具备持续学习和适应能力,从而在动态环境中实现更自主的操作。