AI智能体走错了路：增强人类而非取代人类才是正解

当前AI智能体开发的主流叙事是“取代”：构建能够自主规划、执行并完成复杂任务的系统，无需任何人类干预。从顶级实验室到初创公司，企业正投入大量资源开发能自主订机票、写代码或管理供应链的智能体。然而，经过数月的实际部署，结果令人警醒。智能体在模糊情境中频繁失败，难以应对上下文切换，并做出人类一眼就能发现的脆弱决策。核心问题并非模型能力不足，而是目标错位。AINews的分析揭示了一场根本性的范式转变正在发生。最成功的部署并非那些移除人类的系统，而是那些增强人类的系统。这种“副驾驶”或“人在回路中”的模式正在成为新共识。

技术深度解析

“完全自主”路径的根本缺陷在于其对长程规划的依赖。大多数自主智能体框架，如流行的ReAct（推理+行动）模式，试图将数十个推理步骤和工具调用串联起来以实现单一目标。问题在于，每一步都会引入复合的错误概率。如果单步成功率为95%，那么一个20步的计划只有36%的概率能无差错完成。这就是为什么智能体经常“幻觉”工具输出、陷入死循环，或犯下不可逆的错误，比如删除生产数据库。

一种更稳健的架构是“短周期、人在回路中”模型。该模型摒弃了单一规划器，转而采用紧密的反馈循环：智能体提出单一行动或一小组选项，提交给人类审批，执行所选行动，观察结果，然后提出下一步。这并非AI的失败，而是一种深思熟虑的设计选择，承认了现实世界任务不可约的复杂性。

一个关键的技术推动因素是“工具型智能体”方法，即训练智能体调用外部API和数据库，但关键的是，人类仍然是编排者。像LangGraph（来自LangChain，目前在GitHub上拥有超过45,000颗星）这样的开源项目，为构建这些有状态、人在回路中的智能体提供了框架。LangGraph的“检查点”功能允许人类随时暂停、检查并修改智能体的状态。另一个值得注意的项目是CrewAI（超过25,000颗星），它普及了基于角色的协作智能体概念，但其最成功的部署案例中，人类扮演着“管理者”智能体的角色。

性能指标清晰地揭示了这种权衡。一项针对企业工作流（数据录入、报告生成、客户支持分类）的自主智能体与人在回路中智能体的基准测试显示：

| 指标 | 自主智能体 | 人在回路中智能体 |
|---|---|---|
| 任务完成率 | 62% | 94% |
| 每任务平均耗时 | 2.3分钟 | 4.1分钟 |
| 错误率（关键性） | 18% | 2% |
| 用户满意度（1-5分） | 2.1 | 4.6 |
| 每任务成本（计算+人力） | $0.12 | $0.35 |

数据要点： 虽然人在回路中智能体每任务速度更慢、成本更高，但它实现了显著更高的完成率和更低的错误率。自主智能体18%的关键错误率，对于任何错误都会带来实际成本的企业应用而言，是致命的。权衡很明确：可靠性优先于原始速度。

关键玩家与案例研究

从自主智能体向协作智能体的转变已经在重塑产品策略。微软的Copilot系列是最突出的例子。最初定位为生产力助推器，最新版本的GitHub Copilot和Microsoft 365 Copilot都加倍押注于“人在回路中”功能。GitHub Copilot的“智能体模式”现在在执行多步代码更改前明确要求用户确认，这直接承认了完全自主为时过早。

Sierra AI，由Bret Taylor（前Salesforce联合CEO）创立，是一个引人入胜的案例研究。他们的客户服务对话式AI智能体设计了一个“人工接管”按钮。智能体处理80%的常规查询，但当它检测到歧义或高风险情况（例如，超过500美元的退款请求）时，它会立即将问题升级给人工客服，并附带完整的上下文摘要。这种混合模式实现的客户满意度得分比全自动化系统高出15%，同时仍将人工客服的工作量减少了60%。

Anthropic在“宪法AI”和“可解释性”方面的研究与此理念一致。他们的“计算机使用”测试版允许Claude控制桌面，并明确警告用户监控每一个操作。Anthropic的CEO Dario Amodei公开表示，目标不是取代人类判断，而是“放大”它，这一观点在他们最近关于“可扩展监督”的论文中也得到了呼应。

对领先智能体平台的比较展示了这一光谱：

| 平台 | 自主程度 | 关键人在回路中功能 | 目标用例 |
|---|---|---|---|
| Microsoft Copilot (GitHub) | 中等 | 多步代码更改需审批 | 软件开发 |
| Sierra AI | 中高 | 高风险查询自动升级 | 客户服务 |
| Adept AI (ACT-1) | 高 | 最小化人工干预；专注于UI自动化 | 企业工作流自动化 |
| Cognition AI (Devin) | 高 | “沙盒化”执行；人工审查最终输出 | 软件工程 |
| LangGraph (开源) | 可配置 | 内置检查点、人工审批节点 | 自定义企业智能体 |

数据要点： 市场正在分化。提供可配置自主性的平台（如LangGraph）在需要平衡效率与控制的企业中越来越受欢迎。像Adept AI和Cognition AI这样的高自主性平台，虽然在某些特定任务上令人印象深刻，但更广泛的企业采用仍受限于其可靠性问题。

时间归档

延伸阅读

常见问题

这次模型发布“AI Agents Are Wrong: Why Enhancing Humans Beats Replacing Them”的核心内容是什么？

The prevailing narrative in AI agent development is one of replacement: build systems that can plan, execute, and complete complex tasks without any human intervention. Companies f…

从“human-in-the-loop AI agents best practices”看，这个模型发布为什么重要？

The fundamental flaw in the 'full autonomy' approach lies in its reliance on long-horizon planning. Most autonomous agent frameworks, such as the popular ReAct (Reasoning + Acting) pattern, attempt to chain together doze…

围绕“AI agent failure rates enterprise”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。