技术深度解析
33%天花板并非统计异常,而是基于Transformer大语言模型自回归特性的数学必然。LLM生成的每个token都依赖于前一个token,这意味着错误——无论是来自幻觉、歧义还是与用户意图的简单错位——都会向前传播。在多步骤代理工作流中,每一步通常涉及生成计划、执行动作(如调用API、写入文件)以及解读结果。每一步的误差就是代理内部状态与世界真实状态之间的偏差。
让我们将其形式化。设E_n为第n步后的累积误差。如果每一步引入的平均相对误差为ε(例如偏离正确路径10%),则E_n ≈ E_0 * (1 + ε)^n。即使ε小至0.1,3步后误差增长至1.33倍,5步后至1.61倍,10步后则达2.59倍。代理正确完成任务的概率呈指数级下降。来自多个研究团队(包括主要AI实验室的内部评估)的实证研究证实,在SWE-bench(软件工程)和WebArena(网页导航)等基准测试中,代理在需要4步或更多步骤的任务上的中位完成率稳定在33%左右。
核心问题在于,当前LLM架构缺乏对不确定性的显式表征。它们不知道自己不知道什么。当代理执行一步并得到意外结果时,它没有内置机制可以说:“我现在对自己的位置不确定;我应该回溯到最后一个已验证状态。”这与经典规划算法(如蒙特卡洛树搜索MCTS或部分可观测马尔可夫决策过程POMDP)形成鲜明对比,后者维护信念状态并显式建模不确定性。业界曾尝试用ReAct(推理+行动)和思维链提示等技术来修补这一问题,但这些只是启发式方法,而非架构性解决方案。
一个值得关注的开源项目是LangGraph(github.com/langchain-ai/langgraph,目前超过8000星),它允许开发者构建循环图,使代理可以回溯到之前的节点。然而,LangGraph仍然依赖底层LLM来决定何时循环,而模型无法自我评估不确定性仍然是瓶颈。另一个知名项目是AutoGPT(github.com/Significant-Gravitas/AutoGPT,超过160,000星),它引入了简单的循环重试机制,但由于重试逻辑并非基于正式的不确定性模型,同样受困于指数级误差增长。
下表展示了领先代理框架在标准化5步任务完成基准测试中的表现(越高越好):
| 代理框架 | 5步任务完成率 | 失败前平均步数 | 自我纠错机制 |
|---|---|---|---|
| OpenAI Code Interpreter | 34% | 2.8 | 无(线性执行) |
| LangGraph + GPT-4 | 36% | 3.1 | 手动循环节点 |
| AutoGPT (GPT-4) | 31% | 2.5 | 出错重试(3次尝试) |
| BabyAGI | 28% | 2.2 | 仅任务优先级排序 |
| 基于MCTS的自定义代理(研究) | 52% | 4.1 | 显式信念状态 |
数据要点: 唯一突破33%天花板的框架是使用蒙特卡洛树搜索并带有显式信念状态的框架,这证明了瓶颈在于架构,而非模型规模。
关键玩家与案例研究
33%天花板正在整个行业引发强烈反响。GitHub Copilot(由OpenAI的Codex及后来的GPT-4驱动)在单步代码补全方面取得了巨大成功,但其代理模式——试图自主修复bug或实现多文件功能——在需要超过三次顺序编辑的任务中,失败率约为70%。早期测试者的内部报告显示,Copilot的代理在尝试修复旧bug时常常引入新bug,这是误差累积的典型症状。
Adept AI,由前Google研究员David Luan创立,构建了一个名为ACT-1的代理,能够导航网页界面。在演示中,它在填写表单等短任务上表现良好,但在预订多城市航班等较长工作流中则力不从心。该公司此后已转向聚焦企业自动化,但根本挑战依然存在。
Cognition Labs,即Devin背后的公司,曾声称构建了自主软件工程师。实际上,Devin在SWE-bench上的完成率约为13.86%——远低于33%天花板,因为SWE-bench任务通常需要10步以上。该公司此后承认,Devin在与人类监督配合时表现最佳。
微软通过其Copilot生态体系大力投资代理框架。其研究团队在2025年初发表的一篇论文显示,在每个动作后增加一个“验证步骤”(使用单独的LLM检查输出)