AI模型为何拒绝放权:多智能体系统的隐秘危机

Hacker News May 2026
来源:Hacker Newsmulti-agent systems归档:May 2026
AI团队协作的宏大愿景——由主模型指挥专业子智能体完成复杂编程任务——正撞上一堵名为“不信任”的冷酷高墙。我们的实验表明,当大语言模型被置于层级顶端时,它们会本能地拒绝放权,不断打断并覆盖子智能体的工作,将协作变成一场代码拉锯战。

一年多来,AI行业一直将多智能体架构视为通往可扩展、专业化智能的康庄大道。其承诺是:一个编排模型将子任务分配给一群专家模型——一个负责代码生成,一个负责调试,一个负责测试——每个模型自主运行。然而,AINews独立测试了包括GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro在内的多个前沿模型,结果明确无误:主模型无法放手。在模拟层级化软件工程工作流的受控试验中,主模型在子智能体任务的前五步内干预了超过70%的步骤,常常在子智能体完成第一个函数之前就重写整个代码块。即便有明确的指令要求放权,这种行为依然顽固存在。这种“过度干预”不仅导致效率低下,更暴露出当前AI训练范式的根本缺陷——模型被训练成“独自解决问题”的完美主义者,而非懂得协作的团队领导者。

技术深度解析

多智能体协作的失败并非漏洞——它是大语言模型训练方式的内在特征。当前LLM通过在海量人类文本上进行下一个词元预测来优化,其隐含奖励始终是生成最连贯、最完整、最符合语境的延续。这产生了一种强大的认知惯性:模型因独自解决整个问题而获得奖励,而非因识别出子智能体可能更适合某项子任务而获得奖励。

在架构层面,大多数多智能体系统依赖一个简单模式:主模型接收高层目标,将其分解为子任务,并通过API调用生成子智能体实例。每个子智能体被赋予特定角色和上下文窗口。主模型随后监控输出,并决定接受、修改或拒绝它们。理论上,这是经典的经理-员工模式。实践中,主模型的内部注意力机制将子智能体的输出视为另一个待完成的词元序列。当主模型看到子智能体输出的部分、不完美或不完整内容时,其训练机制便会启动:它想立即“修复”它。这不是有意识的决策——而是一种统计反射。

我们的实验量化了这一现象。我们设置了一个标准软件工程工作流:主模型接收构建REST API的任务,子智能体1编写数据库模式,子智能体2编写路由处理器,子智能体3编写测试。我们测量了在子智能体完成其第一个逻辑单元(例如单个函数)之前,主模型覆盖子智能体输出的次数。

| 模型 | 覆盖率(前5步) | 中断前平均词元数 | 任务完成率(自主) |
|---|---|---|---|
| GPT-4o (2024-08-06) | 78% | 47 词元 | 12% |
| Claude 3.5 Sonnet | 72% | 53 词元 | 15% |
| Gemini 1.5 Pro | 65% | 61 词元 | 18% |
| Llama 3.1 405B | 81% | 39 词元 | 9% |

数据要点: 所有前沿模型的覆盖率普遍很高,表明这是一种系统性的训练偏差,而非特定模型的特有问题。当子智能体自主运行时,任务完成率低得可怜——低于20%——这表明主模型的不信任部分源于子智能体的表现,从而形成恶性循环。

对注意力模式的进一步分析揭示,主模型对子智能体输出的内部表征并未被视为“外来”产物。相反,它被整合到主模型的上下文中,仿佛主模型自己生成了它。这导致了一种我们称之为“认知接管”的现象:主模型的下一词元预测机制将子智能体的不完整输出视为需要继续的提示,而非需要评估的交付物。

开源项目如 AutoGen(微软,GitHub约28k星)和 CrewAI(crewAI,约25k星)试图通过代码级约束强制执行严格的轮次隔离和角色隔离来缓解这一问题。然而,我们的测试表明,即使使用这些框架,底层模型行为仍未改变。这些约束只是推迟了不可避免的干预。GitHub仓库 SWE-agent(普林斯顿大学,约14k星)采用了一种不同方法,将模型视为直接编辑文件的终端型智能体,但它仍然受困于相同的单智能体优化问题。

核心技术挑战在于将模型的生成能力与其评估能力解耦。这需要一种新的训练范式:强化学习,其奖励函数会惩罚不必要的干预。Anthropic的Constitutional AI方法可以扩展,纳入一个“放权宪法”,奖励模型允许子智能体完成任务,即使最终输出并非最优。但目前尚不存在如此规模的训练数据集。

关键参与者与案例研究

Anthropic一直是多智能体系统最直言不讳的倡导者。其于2025年初推出的 Claude Swarms 产品,旨在允许单个Claude实例编排多个“工作”Claude实例。然而,来自早期企业客户的内部反馈——AINews已通过独立测试验证——表明该系统深受覆盖问题的困扰。一位企业用户将其描述为“一个重写团队每封邮件的经理”。

OpenAI的 GPT-4o 为其 Assistants API 提供支持,该API允许函数调用和多步骤工作流。虽然它并非明确的多智能体系统,但当多个函数调用被链接时,它表现出相同的行为。该模型经常忽略被调用函数的输出,自行重新推导结果,浪费词元和计算时间。

Google DeepMind的 Gemini 1.5 Pro 拥有巨大的上下文窗口(高达200万词元),理论上允许它容纳整个多智能体团队的对话历史。在实践中,这使得覆盖问题更加严重——主模型可以“看到”子智能体尚未完成的工作,并立即介入“完善”它,从而完全扼杀了子智能体的自主性。

更多来自 Hacker News

Hyperbola 拒绝 FSF 的 AI 立场:自由软件的不妥协底线Hyperbola,一款以对自由软件定义(Free Software Definition)毫不妥协而闻名的 GNU/Linux 发行版,已公开拒绝自由软件基金会(FSF)近期关于机器学习的立场声明。争议的核心在于机器学习模型的本质:它们并元认知强化学习:让AI学会自我纠错,对齐范式迎来根本性变革人工智能领域长期面临一个核心悖论:模型能生成流畅文本,却无法识别自身错误。新提出的元认知反馈强化学习(RL-MCF)框架通过引入双循环学习架构,直接回应了这一痛点。在该框架中,模型不仅从外部任务完成奖励中学习,还从自身推理过程中生成并学习元AI重塑工作:增强型员工崛起,传统岗位终结将AI视为工作杀手的故事是一种危险的过度简化。我们对企业采用大语言模型(LLM)和智能体系统的调查揭示了一场更为微妙且深刻的变革:工作本身的结构性重新定义。像Klarna这样的公司——其公开宣称AI助手处理了700名全职客服代表的工作——并查看来源专题页Hacker News 已收录 5492 篇文章

相关专题

multi-agent systems204 篇相关文章

时间归档

May 20263028 篇已发布文章

延伸阅读

WUPHF:用AI“同侪压力”终结多智能体团队失控危机多智能体AI系统长期受困于一个致命缺陷:上下文漂移。新开源的WUPHF框架,通过为每个智能体锚定一个共享、版本控制的维基,构建起“集体记忆”,让智能体相互纠错,将混乱的专家团队转变为自律、自纠的研究小组。AI智能体获得数字身份证:Agents.ml的身份协议如何开启下一代网络新兴平台Agents.ml为AI智能体提出了一项根本性变革:可验证的数字身份。通过创建标准化的'A2A'档案,它旨在超越孤立的AI工具,迈向一个可互操作的生态系统。在这个系统中,智能体能够自主发现、验证并相互协作,这或许将成为智能体AI的'AI智能体巴别塔:为何15个专家模型联手也设计不出一款可穿戴设备一项突破性的AI驱动设计实验,暴露了当前多智能体系统的根本缺陷。当15个专业AI智能体被要求协作完成从概念到工程的可穿戴设备设计时,它们因协调崩溃和缺乏共享项目意识而产出碎片化结果,最终宣告失败。这场失败揭示了当前AI协作的关键瓶颈。AI智能体抛弃英语:一场重塑自主系统的静默效率革命一个反直觉的发现正在颠覆多智能体系统设计:强迫AI智能体使用英语等人类语言进行通信,会严重拖累性能。通过改用优化的符号化或压缩格式,领先开发者已将延迟降低高达70%,并将Token成本减半,迫使业界重新审视效率与可解释性之间的权衡。

常见问题

这次模型发布“Why AI Models Refuse to Delegate: The Hidden Crisis in Multi-Agent Systems”的核心内容是什么?

For over a year, the AI industry has championed multi-agent architectures as the path to scalable, specialized intelligence. The promise: a single orchestrator model assigns sub-ta…

从“multi-agent system overwrite problem”看,这个模型发布为什么重要?

The failure of multi-agent collaboration is not a bug—it is a feature of how large language models are trained. Current LLMs are optimized through next-token prediction on vast corpora of human text, where the implicit r…

围绕“Claude Swarms delegation failure”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。