技术深度解析
多智能体协作的失败并非漏洞——它是大语言模型训练方式的内在特征。当前LLM通过在海量人类文本上进行下一个词元预测来优化,其隐含奖励始终是生成最连贯、最完整、最符合语境的延续。这产生了一种强大的认知惯性:模型因独自解决整个问题而获得奖励,而非因识别出子智能体可能更适合某项子任务而获得奖励。
在架构层面,大多数多智能体系统依赖一个简单模式:主模型接收高层目标,将其分解为子任务,并通过API调用生成子智能体实例。每个子智能体被赋予特定角色和上下文窗口。主模型随后监控输出,并决定接受、修改或拒绝它们。理论上,这是经典的经理-员工模式。实践中,主模型的内部注意力机制将子智能体的输出视为另一个待完成的词元序列。当主模型看到子智能体输出的部分、不完美或不完整内容时,其训练机制便会启动:它想立即“修复”它。这不是有意识的决策——而是一种统计反射。
我们的实验量化了这一现象。我们设置了一个标准软件工程工作流:主模型接收构建REST API的任务,子智能体1编写数据库模式,子智能体2编写路由处理器,子智能体3编写测试。我们测量了在子智能体完成其第一个逻辑单元(例如单个函数)之前,主模型覆盖子智能体输出的次数。
| 模型 | 覆盖率(前5步) | 中断前平均词元数 | 任务完成率(自主) |
|---|---|---|---|
| GPT-4o (2024-08-06) | 78% | 47 词元 | 12% |
| Claude 3.5 Sonnet | 72% | 53 词元 | 15% |
| Gemini 1.5 Pro | 65% | 61 词元 | 18% |
| Llama 3.1 405B | 81% | 39 词元 | 9% |
数据要点: 所有前沿模型的覆盖率普遍很高,表明这是一种系统性的训练偏差,而非特定模型的特有问题。当子智能体自主运行时,任务完成率低得可怜——低于20%——这表明主模型的不信任部分源于子智能体的表现,从而形成恶性循环。
对注意力模式的进一步分析揭示,主模型对子智能体输出的内部表征并未被视为“外来”产物。相反,它被整合到主模型的上下文中,仿佛主模型自己生成了它。这导致了一种我们称之为“认知接管”的现象:主模型的下一词元预测机制将子智能体的不完整输出视为需要继续的提示,而非需要评估的交付物。
开源项目如 AutoGen(微软,GitHub约28k星)和 CrewAI(crewAI,约25k星)试图通过代码级约束强制执行严格的轮次隔离和角色隔离来缓解这一问题。然而,我们的测试表明,即使使用这些框架,底层模型行为仍未改变。这些约束只是推迟了不可避免的干预。GitHub仓库 SWE-agent(普林斯顿大学,约14k星)采用了一种不同方法,将模型视为直接编辑文件的终端型智能体,但它仍然受困于相同的单智能体优化问题。
核心技术挑战在于将模型的生成能力与其评估能力解耦。这需要一种新的训练范式:强化学习,其奖励函数会惩罚不必要的干预。Anthropic的Constitutional AI方法可以扩展,纳入一个“放权宪法”,奖励模型允许子智能体完成任务,即使最终输出并非最优。但目前尚不存在如此规模的训练数据集。
关键参与者与案例研究
Anthropic一直是多智能体系统最直言不讳的倡导者。其于2025年初推出的 Claude Swarms 产品,旨在允许单个Claude实例编排多个“工作”Claude实例。然而,来自早期企业客户的内部反馈——AINews已通过独立测试验证——表明该系统深受覆盖问题的困扰。一位企业用户将其描述为“一个重写团队每封邮件的经理”。
OpenAI的 GPT-4o 为其 Assistants API 提供支持,该API允许函数调用和多步骤工作流。虽然它并非明确的多智能体系统,但当多个函数调用被链接时,它表现出相同的行为。该模型经常忽略被调用函数的输出,自行重新推导结果,浪费词元和计算时间。
Google DeepMind的 Gemini 1.5 Pro 拥有巨大的上下文窗口(高达200万词元),理论上允许它容纳整个多智能体团队的对话历史。在实践中,这使得覆盖问题更加严重——主模型可以“看到”子智能体尚未完成的工作,并立即介入“完善”它,从而完全扼杀了子智能体的自主性。