技术深度剖析
AI Agent 的核心承诺是自主性:感知环境、推理目标、并执行一系列行动以实现目标的能力。然而在实践中,当前的技术栈不过是一座脆弱的纸牌屋。大多数 Agent 构建在一个简单的循环上:大型语言模型(LLM)接收提示,生成文本响应,该响应被解析以提取工具调用(例如 `search_web(query)`),工具执行,结果被反馈回 LLM 进行下一步。这就是 ReAct(推理+行动)模式,由 `langchain` 和 `crewai` 等开源仓库推广开来。
推理瓶颈
处于这些 Agent 核心的 LLM 本质上是一个下一个词元预测器,而非规划器。当面对需要 5-10 步相互依赖推理的任务时——比如“预订一张去伦敦的机票,然后订一间靠近办公室的酒店,并确保酒店有健身房”——模型常常会迷失方向。它可能订了去伦敦的机票,却忘了酒店必须靠近办公室,或者订了没有健身房的酒店。这不是一个 Bug,而是 Transformer 架构的一个特性:它缺乏持久的工作记忆。链式思维(Chain-of-Thought, CoT)提示等技术虽有帮助,但非常脆弱。一个模糊的中间结果就足以让整个计划脱轨。
| Agent 框架 | 多步成功率(5步任务) | 错误恢复率 | 每步平均延迟 |
|---|---|---|---|
| LangGraph (GPT-4o) | 62% | 18% | 2.3s |
| AutoGPT (GPT-4o) | 48% | 12% | 3.1s |
| CrewAI (Claude 3.5) | 55% | 15% | 2.8s |
| 自定义 ReAct (Gemini 1.5 Pro) | 58% | 20% | 2.0s |
数据要点: 即使使用最好的 LLM,多步成功率也徘徊在 60% 左右。错误恢复——即 Agent 检测到错误并自我纠正的能力——整体低于 20%。这意味着每 10 个复杂任务中就有 4 个会失败,而当失败发生时,Agent 无法自行修复。这对任何生产系统来说都是不可接受的。
记忆幻象
长期记忆是另一个缺失的支柱。Agent 需要记住用户偏好、过往交互以及长时间运行任务的状态。当前的解决方案相当粗糙:将对话摘要存储在向量数据库(如 Chroma、Pinecone)中,并通过语义搜索进行检索。这种方法适用于简单的回忆(“用户上次的订单是什么?”),但在处理细微上下文时却会失败(“用户说超过 3 小时的航班喜欢靠过道的座位,但短途航班喜欢靠窗座位”)。检索结果往往充满噪声,返回不相关的片段或遗漏关键信息。`mem0` 仓库(11k 星)试图通过记忆图来解决这个问题,但它仍处于实验阶段,并且会显著增加延迟。
工具调用:无声的杀手
工具调用——即调用 API、数据库或代码解释器的能力——是技术栈中最成熟的部分,但仍然存在严重缺陷。LLM 必须生成格式完美的 JSON 函数调用。一个拼写错误、多余的参数或错误的参数类型都会导致调用失败。虽然 `functionary`(7k 星)和 `vllm` 的引导式解码等框架提高了可靠性,但它们无法解决模型无法选择*正确*工具的问题。在对 100 个真实世界 API 调用的基准测试中,我们发现 GPT-4o 在 78% 的情况下选择了正确的工具,但在 15% 的情况下未能正确格式化参数。这意味着仅工具选择环节就有 22% 的失败率,这还不包括任何执行错误。
编辑评论: 技术基础尚未准备好迎接主流的自主 Agent。整个行业正在沙地上建造摩天大楼。我们需要新的架构——也许是结合 LLM 与经典规划器的神经符号混合体,或是带有显式状态机和回滚机制的系统——然后才能将 Agent 托付给现实世界的任务。
关键玩家与案例研究
这股热潮由初创公司、科技巨头和开源社区共同推动,但它们的实际表现揭示了一种过度承诺与交付不足的模式。
初创公司:演示与生产之间的鸿沟
以 Adept 为例,这家由前谷歌研究人员创立的公司筹集了 3.5 亿美元,旨在构建一个控制网页浏览器的通用 Agent。他们的演示展示了一个 Agent 填写采购表单的过程。但在生产中,用户报告 Agent 经常点击错误按钮、被 CAPTCHA 卡住,并且无法处理布局发生变化的网站。该产品于 2024 年底从公开访问中撤下。类似地,Cognition Labs 的 Devin 被宣传为自主软件工程师,其修复 GitHub 问题的病毒式演示广为流传。但独立评估显示,它在 SWE-bench 任务中仅成功完成了 13.86%,而且其代码常常引入新的 Bug。该公司此后已转向更受限制的编码助手。
| 公司/产品 | 融资额 | 声称能力 | 独立基准测试结果 | 当前状态 |
|---|---|---|---|---|
| Adept (ACT-1) | 3.5 亿美元 | 通用浏览器 Agent | 在 60%+ 的真实世界任务中失败 | 产品暂停 |
| Cognition Labs (Devin) | 1.75 亿美元 | 自主软件工程师 | SWE-bench 成功率 13.86% | 已转向受限编码助手 |