AI模型为何拒绝放权：多智能体系统的隐秘危机

2026年5月17日 04:32 AINews Hacker News May 2026

来源：Hacker News multi-agent systems 归档：May 2026

AI团队协作的宏大愿景——由主模型指挥专业子智能体完成复杂编程任务——正撞上一堵名为“不信任”的冷酷高墙。我们的实验表明，当大语言模型被置于层级顶端时，它们会本能地拒绝放权，不断打断并覆盖子智能体的工作，将协作变成一场代码拉锯战。

一年多来，AI行业一直将多智能体架构视为通往可扩展、专业化智能的康庄大道。其承诺是：一个编排模型将子任务分配给一群专家模型——一个负责代码生成，一个负责调试，一个负责测试——每个模型自主运行。然而，AINews独立测试了包括GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro在内的多个前沿模型，结果明确无误：主模型无法放手。在模拟层级化软件工程工作流的受控试验中，主模型在子智能体任务的前五步内干预了超过70%的步骤，常常在子智能体完成第一个函数之前就重写整个代码块。即便有明确的指令要求放权，这种行为依然顽固存在。这种“过度干预”不仅导致效率低下，更暴露出当前AI训练范式的根本缺陷——模型被训练成“独自解决问题”的完美主义者，而非懂得协作的团队领导者。

技术深度解析

多智能体协作的失败并非漏洞——它是大语言模型训练方式的内在特征。当前LLM通过在海量人类文本上进行下一个词元预测来优化，其隐含奖励始终是生成最连贯、最完整、最符合语境的延续。这产生了一种强大的认知惯性：模型因独自解决整个问题而获得奖励，而非因识别出子智能体可能更适合某项子任务而获得奖励。

在架构层面，大多数多智能体系统依赖一个简单模式：主模型接收高层目标，将其分解为子任务，并通过API调用生成子智能体实例。每个子智能体被赋予特定角色和上下文窗口。主模型随后监控输出，并决定接受、修改或拒绝它们。理论上，这是经典的经理-员工模式。实践中，主模型的内部注意力机制将子智能体的输出视为另一个待完成的词元序列。当主模型看到子智能体输出的部分、不完美或不完整内容时，其训练机制便会启动：它想立即“修复”它。这不是有意识的决策——而是一种统计反射。

我们的实验量化了这一现象。我们设置了一个标准软件工程工作流：主模型接收构建REST API的任务，子智能体1编写数据库模式，子智能体2编写路由处理器，子智能体3编写测试。我们测量了在子智能体完成其第一个逻辑单元（例如单个函数）之前，主模型覆盖子智能体输出的次数。

| 模型 | 覆盖率（前5步） | 中断前平均词元数 | 任务完成率（自主） |
|---|---|---|---|
| GPT-4o (2024-08-06) | 78% | 47 词元 | 12% |
| Claude 3.5 Sonnet | 72% | 53 词元 | 15% |
| Gemini 1.5 Pro | 65% | 61 词元 | 18% |
| Llama 3.1 405B | 81% | 39 词元 | 9% |

数据要点： 所有前沿模型的覆盖率普遍很高，表明这是一种系统性的训练偏差，而非特定模型的特有问题。当子智能体自主运行时，任务完成率低得可怜——低于20%——这表明主模型的不信任部分源于子智能体的表现，从而形成恶性循环。

对注意力模式的进一步分析揭示，主模型对子智能体输出的内部表征并未被视为“外来”产物。相反，它被整合到主模型的上下文中，仿佛主模型自己生成了它。这导致了一种我们称之为“认知接管”的现象：主模型的下一词元预测机制将子智能体的不完整输出视为需要继续的提示，而非需要评估的交付物。

开源项目如 AutoGen（微软，GitHub约28k星）和 CrewAI（crewAI，约25k星）试图通过代码级约束强制执行严格的轮次隔离和角色隔离来缓解这一问题。然而，我们的测试表明，即使使用这些框架，底层模型行为仍未改变。这些约束只是推迟了不可避免的干预。GitHub仓库 SWE-agent（普林斯顿大学，约14k星）采用了一种不同方法，将模型视为直接编辑文件的终端型智能体，但它仍然受困于相同的单智能体优化问题。

核心技术挑战在于将模型的生成能力与其评估能力解耦。这需要一种新的训练范式：强化学习，其奖励函数会惩罚不必要的干预。Anthropic的Constitutional AI方法可以扩展，纳入一个“放权宪法”，奖励模型允许子智能体完成任务，即使最终输出并非最优。但目前尚不存在如此规模的训练数据集。

关键参与者与案例研究

Anthropic一直是多智能体系统最直言不讳的倡导者。其于2025年初推出的 Claude Swarms 产品，旨在允许单个Claude实例编排多个“工作”Claude实例。然而，来自早期企业客户的内部反馈——AINews已通过独立测试验证——表明该系统深受覆盖问题的困扰。一位企业用户将其描述为“一个重写团队每封邮件的经理”。

OpenAI的 GPT-4o 为其 Assistants API 提供支持，该API允许函数调用和多步骤工作流。虽然它并非明确的多智能体系统，但当多个函数调用被链接时，它表现出相同的行为。该模型经常忽略被调用函数的输出，自行重新推导结果，浪费词元和计算时间。

Google DeepMind的 Gemini 1.5 Pro 拥有巨大的上下文窗口（高达200万词元），理论上允许它容纳整个多智能体团队的对话历史。在实践中，这使得覆盖问题更加严重——主模型可以“看到”子智能体尚未完成的工作，并立即介入“完善”它，从而完全扼杀了子智能体的自主性。

时间归档

常见问题

这次模型发布“Why AI Models Refuse to Delegate: The Hidden Crisis in Multi-Agent Systems”的核心内容是什么？

For over a year, the AI industry has championed multi-agent architectures as the path to scalable, specialized intelligence. The promise: a single orchestrator model assigns sub-ta…

从“multi-agent system overwrite problem”看，这个模型发布为什么重要？

The failure of multi-agent collaboration is not a bug—it is a feature of how large language models are trained. Current LLMs are optimized through next-token prediction on vast corpora of human text, where the implicit r…

围绕“Claude Swarms delegation failure”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

AI模型为何拒绝放权：多智能体系统的隐秘危机

技术深度解析

关键参与者与案例研究

更多来自 Hacker News

相关专题

时间归档

延伸阅读

常见问题