技术深度解析
AI Agent社区的碎片化根植于Agent架构本身固有的多层次和实验性。与训练单个LLM不同,构建一个可靠的Agent需要编排一个复杂的流水线:感知(解析用户意图)、规划(分解任务)、记忆(短期上下文 vs. 长期知识)、工具使用(API调用、代码执行)和行动(输出生成)。每一层都有自己一套未解决的问题和相互竞争的实现方案。
ReAct循环的泛滥
大多数现代Agent的核心是ReAct(推理+行动)循环,由Yao等人在2022年推广。然而,并没有标准的实现方式。研究者们已经将原始概念分叉成数十种变体:有些使用思维链提示,有些使用结构化的JSON输出,还有一些依赖微调模型。这造成了一种局面:一种变体中的突破(例如,一种更好的处理工具调用错误的方法)可能永远不会被其他变体采纳,因为没有共享的代码库或基准。
记忆系统:一座巴别塔
记忆是碎片化尤为严重的另一个领域。一些Agent使用简单的滑动窗口上下文,另一些使用像Pinecone或Weaviate这样的向量数据库进行检索增强生成(RAG),还有一些实验性系统使用基于图的记忆(例如,拥有超过20,000个GitHub星标的MemGPT)。每种方法在延迟、准确性和成本方面都有不同的权衡,但没有一个统一的框架来比较它们。一位研究新记忆压缩技术的研究者必须从头开始构建自己的评估流水线,常常是在重复造轮子。
工具调用:狂野西部
工具调用可能是碎片化最严重的领域。OpenAI的函数调用API、Anthropic的工具使用和Google Vertex AI的Agent构建器各有自己的模式和执行语义。像LangChain、AutoGPT和BabyAGI这样的开源框架增加了另一层抽象,但它们并不互操作。为LangChain构建的工具不能直接用于AutoGPT流水线,而需要大量的适配。这种碎片化是构建一个可复用Agent工具的共享生态系统的主要障碍。
基准测试数据
| 基准测试 | 任务类型 | 最高分(单Agent) | 最高分(多Agent) | 关键限制 |
|---|---|---|---|---|
| SWE-bench(软件工程) | 代码修复 | 27.3%(Claude 3.5) | 33.2%(Devin风格) | 聚焦单Agent;无Agent间通信测试 |
| GAIA(通用AI助手) | 多步推理 | 67.1%(GPT-4 + 工具) | 不适用 | 无多Agent场景;工具多样性有限 |
| AgentBench(8项任务) | 网页、游戏、推理 | 78.2%(GPT-4) | 不适用 | 任务孤立;无协作指标 |
| WebArena(网页导航) | 电商、论坛 | 45.6%(GPT-4V) | 不适用 | 无多Agent协调基准 |
数据要点: 基准测试领域本身也是碎片化的。没有一个单一的基准测试能够衡量Agent间通信、协议效率或协作解决问题的能力。这种缺失使得客观比较不同的Agent架构或社区标准变得不可能。
关键参与者与案例研究
碎片化不仅是技术上的,也是组织上的。几个关键参与者正在争夺成为Agent研究事实上的“主广场”,但至今没有成功。
LangChain生态系统
由Harrison Chase创立的LangChain已成为构建LLM应用(包括Agent)最流行的开源框架。其Discord服务器拥有超过10万名成员,使其成为Agent开发者最大的单一聚集地。然而,LangChain的快速演进和频繁的重大变更让许多研究者感到沮丧。此外,LangChain的架构是固执己见的——它偏爱一种特定的组合链和工具的方式——这对于那些探索新颖Agent拓扑结构的人来说可能是一种限制。
AutoGPT与BabyAGI
这些项目是首批吸引主流关注自主Agent的项目。AutoGPT的GitHub仓库拥有超过16万个星标,但其社区主要关注最终用户应用,而非深度研究。随着底层LLM(GPT-4)的改进,这些项目在维持发展势头方面遇到了困难,它们的许多核心思想(例如,无限上下文循环)已被吸收到商业产品中。
Hugging Face的Agent努力
Hugging Face试图通过其“Transformers Agents”和“smolagents”计划来填补这一空白。这些计划为工具使用和Agent执行提供了标准化的API,但采用率有限。Hugging Face的优势在于模型托管和训练,而非Agent编排,其Agent工具通常被视为其核心模型中心的次要产品。
商业参与者
| 公司 | 产品 | 焦点 | 关键差异化因素 | 社区规模 |
|---|---|---|---|---|
| OpenAI | GPTs + Assistants API | 任务特定Agent | 原生集成GPT-4,强大的工具调用能力 | 庞大(通过API用户) |
| Anthropic | Claude + Tool Use | 安全、可控的Agent | 强调宪法AI和可解释性 | 中等(研究社区) |
| Google | Vertex AI Agent Builder | 企业级Agent | 与Google云服务和搜索深度集成 | 中等(企业用户) |
| Microsoft | Copilot Studio | 低代码Agent | 与Microsoft 365和Power Platform集成 | 大(企业用户) |
| Adept | ACT-1 | 通用数字Agent | 端到端训练,直接操作UI | 小(研究型) |