技术深度解析
薄包装层问题
本质上,当今绝大多数AI Agent遵循相同的架构模式:面向用户的聊天界面 → LLM API调用(GPT-4o、Claude 3.5、Gemini) → 函数调用层 → 外部工具API(网页搜索、文件存储、日历)。所谓的“Agent行为”完全通过提示工程实现——具体来说,就是通过系统提示词指示LLM分解任务、调用函数并维护状态。这不是护城河,这只是一个配置文件。
以典型的Agent技术栈为例:
| 层级 | 常见实现方式 | 差异化潜力 |
|---|---|---|
| 用户界面 | React/Next.js前端 | 低(仅限外观) |
| 编排层 | LangChain、AutoGPT或自定义Python | 中等(工作流设计) |
| LLM后端 | GPT-4o、Claude 3.5、Gemini 1.5 Pro | 无(商品化API) |
| 工具集成 | Google、Slack、Notion的REST API | 低(标准化接口) |
| 记忆/状态 | 向量数据库(Pinecone、Chroma) | 低(开源解决方案) |
真正可能存在差异化的唯一层级是编排逻辑——Agent如何规划、执行任务并从错误中恢复。但即便在这里,LangChain(GitHub 70k+星标)和AutoGPT(160k+星标)等开源框架已经将相关模式普及化。一家初创公司的“专有”编排往往只是这些库的微调版本。
基础模型的自我吞噬
Agent面临的生存威胁在于,基础模型正在迅速吸收它们的价值主张。GPT-4o于2024年6月发布的函数调用功能,已经允许模型输出结构化JSON用于工具调用。GPT-5(预计2025年底发布)据称将多步规划作为原生能力集成——这意味着模型本身可以将“预订航班和酒店”这样的任务分解为子步骤,而无需外部编排。Google的Gemini Ultra 2已在其API中直接展示了“Agent行为”,包括持久化记忆和无需包装层的工具使用。
| 能力 | GPT-4(2023) | GPT-4o(2024) | GPT-5(预计2025) |
|---|---|---|---|
| 函数调用 | 手动JSON输出 | 原生结构化输出 | 隐式规划 |
| 多步推理 | 依赖提示词 | 改进的思维链 | 内置任务分解 |
| 工具使用 | 需外部代码 | API级工具定义 | 自我发现工具 |
| 记忆 | 仅上下文窗口 | 128K上下文 | 持久化、有状态会话 |
数据洞察: 每一代基础模型都会消除Agent技术栈中的一层。到GPT-5时代,“编排层”——这个所谓的Agent核心——将成为模型层面的基本功能。仅提供编排能力的初创公司,是在沙上建塔。
GitHub上的证据
对热门AI仓库的扫描揭示了商品化的程度。最流行的Agent框架——CrewAI(25k星标)、AutoGPT(160k星标)、BabyAGI(20k星标)——都是同一循环的变体:规划、执行、观察、重新规划。没有一个拥有技术护城河。即便是Microsoft的Copilot Studio和OpenAI自己的GPTs,本质上也是这些模式的管理版本。真正的创新正在模型层发生(例如Meta的Llama 3.1 405B原生支持工具使用),或在拥有专有数据的应用层(例如法律领域的Harvey、代码领域的Cursor)。
关键玩家与案例研究
Agent战争的三个战线
市场可分为三类参与者,各自拥有不同的优势和弱点。
| 类别 | 示例 | 核心策略 | 弱点 |
|---|---|---|---|
| 模型厂商 | OpenAI(GPTs)、Google(Vertex AI Agent Builder)、Anthropic(Claude Agents) | 拥有模型;将Agent作为增值服务 | 蚕食自身API收入;Agent是亏损引流产品 |
| 视频/内容平台 | 字节跳动(豆包Agent)、YouTube(AI摘要)、Notion(Notion AI) | 利用现有用户基础和内容 | 局限于平台;缺乏跨领域实用性 |
| 纯Agent初创公司 | Adept AI、Cognition AI(Devin)、MultiOn | 构建最佳编排能力 | 无模型或数据护城河;淘汰风险最高 |
模型厂商: OpenAI的GPTs(2023年11月发布)是Agent产品化的首次重大尝试。用户可以创建带有指令、知识文件和工具集成的自定义Agent。但GPTs本质上只是GPT-4上的薄UI层——它们不具备模型本身之外的独特能力。用户接受度平平;大多数人仍更喜欢原始聊天界面。Google的Vertex AI Agent Builder更偏向企业级,提供与Google Workspace和BigQuery的集成。但它仍然是一个包装层——Gemini的任何改进都会直接减少对Agent层的需求。
视频/内容平台: 字节跳动的豆包Agent是一个有趣的案例。它与抖音和今日头条深度集成,允许用户创建能够搜索视频、总结内容甚至生成短视频片段的Agent。这里的护城河是专有的视频索引