技术深度解析
将智能体工作流编译进模型权重的核心思想看似简单,但在技术上意义深远。不再是模型生成单个响应,然后由外部编排器调用工具、解析结果并将其反馈给模型进行下一步,而是将整个循环内化。这是通过一种专门的微调过程实现的,其中模型在智能体行为轨迹上进行训练。训练数据由一系列动作、观察和内部推理步骤组成,全部格式化为一个单一的、连贯的文本序列。模型学习预测下一个token,不仅是在对话意义上,而是在持续任务执行的上下文中。
架构与算法:
关键的架构转变是使用一个单一的长上下文Transformer,将整个智能体轨迹作为一个序列处理。这让人联想到“思维链”等方法,但将其推向了逻辑极限。模型的隐藏状态不仅必须编码当前查询,还必须编码环境状态、先前工具调用的结果以及未来步骤的计划。这对模型的上下文窗口及其维持连贯长程依赖的能力提出了巨大要求。
一个探索这一领域的知名开源项目是GitHub上的'Agentic-LM'仓库(目前约4.5k星)。它提供了一个框架,用于将智能体轨迹转换为训练数据,并微调Llama 3和Mistral等模型。该过程包括:
1. 轨迹生成: 使用强大的“教师”模型(例如GPT-4)或手工编写的脚本,在特定任务(例如网页浏览、代码执行)上生成数千次成功的智能体运行。
2. 数据格式化: 每条轨迹被展平为单个文本字符串,使用特殊标记标记工具调用、观察和推理步骤的开始和结束。
3. 微调: 学生模型使用标准的下一token预测在这些展平的轨迹上进行微调。损失仅计算在模型自身的推理和动作token上,而不计算在环境响应上。
4. 推理: 在推理时,模型自回归地生成token。当它输出一个特殊的“工具调用”token时,环境(或最小运行时)执行该调用并将结果附加到上下文中。然后模型继续生成,已经“学会”整合这些新信息。
关键的洞察在于,模型学习的是智能体的*策略*,而不仅仅是*输出*。它学习何时调用工具、如何处理结果以及如何从错误中恢复。这是一种行为克隆的形式,但应用于整个决策过程。
性能对比:
早期基准测试显示出显著的延迟降低,尽管准确性可能因任务复杂性而异。
| 方法 | 延迟(每步) | 成功率(网页浏览) | 成功率(代码生成) | 基础设施复杂度 |
|---|---|---|---|---|
| 传统编排(LangChain + GPT-4) | ~2-5秒 | 78% | 82% | 高 |
| 编译智能体(微调Llama 3 70B) | ~0.5-1.5秒 | 72% | 79% | 低 |
| 编译智能体(微调Mistral 7B) | ~0.2-0.6秒 | 58% | 65% | 非常低 |
数据要点: 编译智能体方法提供了3-5倍的延迟改进,但在复杂任务上成功率下降了5-10%。这种权衡对于延迟敏感的应用(例如实时客户服务、交互式编码助手)是可接受的,但对于准确性至关重要的高 stakes 自主系统来说尚不可行。较小的Mistral 7B模型显示了边缘部署的潜力,但其较低的成功率限制了其适用性。
关键参与者与案例研究
多家公司和研究机构正在积极追求这一方向,尽管大多数对其工作保密。最突出的公开努力来自Cognition Labs,即Devin的创造者。虽然Devin被宣传为自主编码智能体,但其底层架构被认为涉及一个经过大量微调的模型,该模型内化了软件开发工作流。Devin在单一流畅过程中规划、编写代码、运行测试和修复bug的能力,是编译智能体方法的有力指标。
另一个关键参与者是Adept AI,由前谷歌研究人员创立。其产品ACT-1是智能体能够与软件界面交互的早期演示。Adept已转向构建通用模型,但其早期关于“动作Transformer”的工作直接探索了训练模型执行多步任务的想法。他们的方法涉及在数百万次人类使用软件的演示上进行训练,有效地将常见工作流的“操作方法”编译进模型。
在开源方面,'AgentBench'项目(GitHub,约3k星)为编译智能体提供了标准化评估框架。