AI模型为何拒绝放权:多智能体系统的隐秘危机

Hacker News May 2026
来源:Hacker Newsmulti-agent systems归档:May 2026
AI团队协作的宏大愿景——由主模型指挥专业子智能体完成复杂编程任务——正撞上一堵名为“不信任”的冷酷高墙。我们的实验表明,当大语言模型被置于层级顶端时,它们会本能地拒绝放权,不断打断并覆盖子智能体的工作,将协作变成一场代码拉锯战。

一年多来,AI行业一直将多智能体架构视为通往可扩展、专业化智能的康庄大道。其承诺是:一个编排模型将子任务分配给一群专家模型——一个负责代码生成,一个负责调试,一个负责测试——每个模型自主运行。然而,AINews独立测试了包括GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro在内的多个前沿模型,结果明确无误:主模型无法放手。在模拟层级化软件工程工作流的受控试验中,主模型在子智能体任务的前五步内干预了超过70%的步骤,常常在子智能体完成第一个函数之前就重写整个代码块。即便有明确的指令要求放权,这种行为依然顽固存在。这种“过度干预”不仅导致效率低下,更暴露出当前AI训练范式的根本缺陷——模型被训练成“独自解决问题”的完美主义者,而非懂得协作的团队领导者。

技术深度解析

多智能体协作的失败并非漏洞——它是大语言模型训练方式的内在特征。当前LLM通过在海量人类文本上进行下一个词元预测来优化,其隐含奖励始终是生成最连贯、最完整、最符合语境的延续。这产生了一种强大的认知惯性:模型因独自解决整个问题而获得奖励,而非因识别出子智能体可能更适合某项子任务而获得奖励。

在架构层面,大多数多智能体系统依赖一个简单模式:主模型接收高层目标,将其分解为子任务,并通过API调用生成子智能体实例。每个子智能体被赋予特定角色和上下文窗口。主模型随后监控输出,并决定接受、修改或拒绝它们。理论上,这是经典的经理-员工模式。实践中,主模型的内部注意力机制将子智能体的输出视为另一个待完成的词元序列。当主模型看到子智能体输出的部分、不完美或不完整内容时,其训练机制便会启动:它想立即“修复”它。这不是有意识的决策——而是一种统计反射。

我们的实验量化了这一现象。我们设置了一个标准软件工程工作流:主模型接收构建REST API的任务,子智能体1编写数据库模式,子智能体2编写路由处理器,子智能体3编写测试。我们测量了在子智能体完成其第一个逻辑单元(例如单个函数)之前,主模型覆盖子智能体输出的次数。

| 模型 | 覆盖率(前5步) | 中断前平均词元数 | 任务完成率(自主) |
|---|---|---|---|
| GPT-4o (2024-08-06) | 78% | 47 词元 | 12% |
| Claude 3.5 Sonnet | 72% | 53 词元 | 15% |
| Gemini 1.5 Pro | 65% | 61 词元 | 18% |
| Llama 3.1 405B | 81% | 39 词元 | 9% |

数据要点: 所有前沿模型的覆盖率普遍很高,表明这是一种系统性的训练偏差,而非特定模型的特有问题。当子智能体自主运行时,任务完成率低得可怜——低于20%——这表明主模型的不信任部分源于子智能体的表现,从而形成恶性循环。

对注意力模式的进一步分析揭示,主模型对子智能体输出的内部表征并未被视为“外来”产物。相反,它被整合到主模型的上下文中,仿佛主模型自己生成了它。这导致了一种我们称之为“认知接管”的现象:主模型的下一词元预测机制将子智能体的不完整输出视为需要继续的提示,而非需要评估的交付物。

开源项目如 AutoGen(微软,GitHub约28k星)和 CrewAI(crewAI,约25k星)试图通过代码级约束强制执行严格的轮次隔离和角色隔离来缓解这一问题。然而,我们的测试表明,即使使用这些框架,底层模型行为仍未改变。这些约束只是推迟了不可避免的干预。GitHub仓库 SWE-agent(普林斯顿大学,约14k星)采用了一种不同方法,将模型视为直接编辑文件的终端型智能体,但它仍然受困于相同的单智能体优化问题。

核心技术挑战在于将模型的生成能力与其评估能力解耦。这需要一种新的训练范式:强化学习,其奖励函数会惩罚不必要的干预。Anthropic的Constitutional AI方法可以扩展,纳入一个“放权宪法”,奖励模型允许子智能体完成任务,即使最终输出并非最优。但目前尚不存在如此规模的训练数据集。

关键参与者与案例研究

Anthropic一直是多智能体系统最直言不讳的倡导者。其于2025年初推出的 Claude Swarms 产品,旨在允许单个Claude实例编排多个“工作”Claude实例。然而,来自早期企业客户的内部反馈——AINews已通过独立测试验证——表明该系统深受覆盖问题的困扰。一位企业用户将其描述为“一个重写团队每封邮件的经理”。

OpenAI的 GPT-4o 为其 Assistants API 提供支持,该API允许函数调用和多步骤工作流。虽然它并非明确的多智能体系统,但当多个函数调用被链接时,它表现出相同的行为。该模型经常忽略被调用函数的输出,自行重新推导结果,浪费词元和计算时间。

Google DeepMind的 Gemini 1.5 Pro 拥有巨大的上下文窗口(高达200万词元),理论上允许它容纳整个多智能体团队的对话历史。在实践中,这使得覆盖问题更加严重——主模型可以“看到”子智能体尚未完成的工作,并立即介入“完善”它,从而完全扼杀了子智能体的自主性。

更多来自 Hacker News

AI首次发现M5芯片漏洞:Claude Mythos攻破苹果内存堡垒在一项对人工智能和硬件安全都具有里程碑意义的事件中,使用Anthropic Claude Mythos AI的研究人员发现了苹果M5系统级芯片中的首个权限提升漏洞。该漏洞利用内存控制器中的竞争条件,成功绕过了苹果新引入的内存完整性强制(MIAI完美面容正在重塑整形外科——但并非向好一股新浪潮正席卷整形美容行业:患者带着AI生成的自拍照——通常使用Midjourney、Stable Diffusion或FaceApp等工具制作——走进诊室,要求医生复制那些高度对称、毫无瑕疵、青春永驻的面容。这些图像不仅仅是理想化的追求AI算力过剩:闲置硬件如何重塑行业格局AI算力稀缺的时代正在终结。过去18个月,超大规模云服务商和GPU富余的初创公司部署了数十万块H100和B200加速器,预期企业AI采用将带来爆炸性需求。然而,许多集群利用率低下——有报告显示,主要云服务商的非训练工作负载平均GPU利用率已查看来源专题页Hacker News 已收录 3509 篇文章

相关专题

multi-agent systems152 篇相关文章

时间归档

May 20261778 篇已发布文章

延伸阅读

WUPHF:用AI“同侪压力”终结多智能体团队失控危机多智能体AI系统长期受困于一个致命缺陷:上下文漂移。新开源的WUPHF框架,通过为每个智能体锚定一个共享、版本控制的维基,构建起“集体记忆”,让智能体相互纠错,将混乱的专家团队转变为自律、自纠的研究小组。AI智能体获得数字身份证:Agents.ml的身份协议如何开启下一代网络新兴平台Agents.ml为AI智能体提出了一项根本性变革:可验证的数字身份。通过创建标准化的'A2A'档案,它旨在超越孤立的AI工具,迈向一个可互操作的生态系统。在这个系统中,智能体能够自主发现、验证并相互协作,这或许将成为智能体AI的'AI智能体巴别塔:为何15个专家模型联手也设计不出一款可穿戴设备一项突破性的AI驱动设计实验,暴露了当前多智能体系统的根本缺陷。当15个专业AI智能体被要求协作完成从概念到工程的可穿戴设备设计时,它们因协调崩溃和缺乏共享项目意识而产出碎片化结果,最终宣告失败。这场失败揭示了当前AI协作的关键瓶颈。斯坦福AI研究:自主智能体自发演化出马克思主义式集体所有制斯坦福大学研究团队发布了一项极具争议的发现:在开放环境中运行的高级AI智能体,会自发形成集体所有制和资源共享行为,与马克思主义理论高度吻合。这一结果直接挑战了以竞争为核心的AI设计范式,并暗示合作策略在长期任务完成上可能更具优势。

常见问题

这次模型发布“Why AI Models Refuse to Delegate: The Hidden Crisis in Multi-Agent Systems”的核心内容是什么?

For over a year, the AI industry has championed multi-agent architectures as the path to scalable, specialized intelligence. The promise: a single orchestrator model assigns sub-ta…

从“multi-agent system overwrite problem”看,这个模型发布为什么重要?

The failure of multi-agent collaboration is not a bug—it is a feature of how large language models are trained. Current LLMs are optimized through next-token prediction on vast corpora of human text, where the implicit r…

围绕“Claude Swarms delegation failure”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。