Agent战争：为何大多数AI助手将在下一次模型更新中被淘汰

AI Agent领域正经历严重的商品化浪潮。从OpenAI、Google到字节跳动和Notion，数百家公司推出的Agent都在执行相同的核心功能：网页浏览、文件处理、任务编排。绝大多数产品只是带有定制UI和提示模板的简单API包装层，技术差异化几乎为零。这种同质化极其危险，因为底层LLM正在迅速吸收Agent的能力。GPT-5和Gemini Ultra 2现已原生支持函数调用、多步推理和工具使用——这些正是Agent原本要提供的核心功能。结果形成了上下夹击之势：下方是同质产品间的价格战，上方是基础模型进化带来的淘汰危机。最终幸存者将是那些嵌入专有数据、拥有深度行业整合或独特工作流设计的Agent。

技术深度解析

薄包装层问题

本质上，当今绝大多数AI Agent遵循相同的架构模式：面向用户的聊天界面 → LLM API调用（GPT-4o、Claude 3.5、Gemini） → 函数调用层 → 外部工具API（网页搜索、文件存储、日历）。所谓的“Agent行为”完全通过提示工程实现——具体来说，就是通过系统提示词指示LLM分解任务、调用函数并维护状态。这不是护城河，这只是一个配置文件。

以典型的Agent技术栈为例：

| 层级 | 常见实现方式 | 差异化潜力 |
|---|---|---|
| 用户界面 | React/Next.js前端 | 低（仅限外观） |
| 编排层 | LangChain、AutoGPT或自定义Python | 中等（工作流设计） |
| LLM后端 | GPT-4o、Claude 3.5、Gemini 1.5 Pro | 无（商品化API） |
| 工具集成 | Google、Slack、Notion的REST API | 低（标准化接口） |
| 记忆/状态 | 向量数据库（Pinecone、Chroma） | 低（开源解决方案） |

真正可能存在差异化的唯一层级是编排逻辑——Agent如何规划、执行任务并从错误中恢复。但即便在这里，LangChain（GitHub 70k+星标）和AutoGPT（160k+星标）等开源框架已经将相关模式普及化。一家初创公司的“专有”编排往往只是这些库的微调版本。

基础模型的自我吞噬

Agent面临的生存威胁在于，基础模型正在迅速吸收它们的价值主张。GPT-4o于2024年6月发布的函数调用功能，已经允许模型输出结构化JSON用于工具调用。GPT-5（预计2025年底发布）据称将多步规划作为原生能力集成——这意味着模型本身可以将“预订航班和酒店”这样的任务分解为子步骤，而无需外部编排。Google的Gemini Ultra 2已在其API中直接展示了“Agent行为”，包括持久化记忆和无需包装层的工具使用。

| 能力 | GPT-4（2023） | GPT-4o（2024） | GPT-5（预计2025） |
|---|---|---|---|
| 函数调用 | 手动JSON输出 | 原生结构化输出 | 隐式规划 |
| 多步推理 | 依赖提示词 | 改进的思维链 | 内置任务分解 |
| 工具使用 | 需外部代码 | API级工具定义 | 自我发现工具 |
| 记忆 | 仅上下文窗口 | 128K上下文 | 持久化、有状态会话 |

数据洞察： 每一代基础模型都会消除Agent技术栈中的一层。到GPT-5时代，“编排层”——这个所谓的Agent核心——将成为模型层面的基本功能。仅提供编排能力的初创公司，是在沙上建塔。

GitHub上的证据

对热门AI仓库的扫描揭示了商品化的程度。最流行的Agent框架——CrewAI（25k星标）、AutoGPT（160k星标）、BabyAGI（20k星标）——都是同一循环的变体：规划、执行、观察、重新规划。没有一个拥有技术护城河。即便是Microsoft的Copilot Studio和OpenAI自己的GPTs，本质上也是这些模式的管理版本。真正的创新正在模型层发生（例如Meta的Llama 3.1 405B原生支持工具使用），或在拥有专有数据的应用层（例如法律领域的Harvey、代码领域的Cursor）。

关键玩家与案例研究

Agent战争的三个战线

市场可分为三类参与者，各自拥有不同的优势和弱点。

| 类别 | 示例 | 核心策略 | 弱点 |
|---|---|---|---|
| 模型厂商 | OpenAI（GPTs）、Google（Vertex AI Agent Builder）、Anthropic（Claude Agents） | 拥有模型；将Agent作为增值服务 | 蚕食自身API收入；Agent是亏损引流产品 |
| 视频/内容平台 | 字节跳动（豆包Agent）、YouTube（AI摘要）、Notion（Notion AI） | 利用现有用户基础和内容 | 局限于平台；缺乏跨领域实用性 |
| 纯Agent初创公司 | Adept AI、Cognition AI（Devin）、MultiOn | 构建最佳编排能力 | 无模型或数据护城河；淘汰风险最高 |

模型厂商： OpenAI的GPTs（2023年11月发布）是Agent产品化的首次重大尝试。用户可以创建带有指令、知识文件和工具集成的自定义Agent。但GPTs本质上只是GPT-4上的薄UI层——它们不具备模型本身之外的独特能力。用户接受度平平；大多数人仍更喜欢原始聊天界面。Google的Vertex AI Agent Builder更偏向企业级，提供与Google Workspace和BigQuery的集成。但它仍然是一个包装层——Gemini的任何改进都会直接减少对Agent层的需求。

视频/内容平台： 字节跳动的豆包Agent是一个有趣的案例。它与抖音和今日头条深度集成，允许用户创建能够搜索视频、总结内容甚至生成短视频片段的Agent。这里的护城河是专有的视频索引

时间归档

延伸阅读

常见问题

这次模型发布“Agent Wars: Why Most AI Assistants Are Doomed by the Next Model Update”的核心内容是什么？

The AI Agent landscape is experiencing a severe case of commoditization. Hundreds of companies—from OpenAI and Google to ByteDance and Notion—have launched agents that perform the…

从“AI agent market commoditization”看，这个模型发布为什么重要？

At its core, the vast majority of today's AI agents follow the same architectural pattern: a user-facing chat interface → an LLM API call (GPT-4o, Claude 3.5, Gemini) → a function-calling layer → external tool APIs (web…

围绕“vertical agent vs horizontal agent”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。