技术深度解析
从固定应用到 Agentic AI 的转变并非单一技术,而是多项关键进步的汇聚。核心在于 LLM 执行 函数调用 的能力——模型输出结构化 JSON 以调用外部工具。OpenAI 的 GPT-4o、Anthropic 的 Claude 3.5 Sonnet 和 Google 的 Gemini 1.5 Pro 均原生支持此功能。模型接收可用函数列表(如 `rename_file`、`search_web`、`send_email`)及其模式,并根据用户的自然语言请求决定调用哪个函数。
Agent 架构: 典型 Agent 系统包含三层:
1. 编排层: 负责规划与推理的 LLM。它使用 ReAct(推理+行动)或思维链等技术将复杂请求分解为步骤。
2. 工具层: 一组 API 或本地函数。可包括文件系统操作、Web API(Slack、Gmail、Notion),甚至其他 AI 模型。
3. 记忆与上下文: 短期上下文(当前对话)和长期记忆(用户偏好、历史操作)。MemGPT(现更名为 Letta)等项目为 Agent 显式添加了虚拟记忆系统。
开源生态: GitHub 仓库 LangChain(超 10 万星)提供了链式调用 LLM 和工具集成的框架。AutoGPT(超 17 万星)是自主 Agent 的早期实验,但可靠性不足。较新的 CrewAI(超 2.5 万星)专注于多 Agent 协作,让专业 Agent(如“研究员”和“写手”)协同工作。
性能基准: 评估 Agent 极其困难。GAIA 基准测试(通用 AI 助手)测试 Agent 完成真实世界任务的能力,例如“预订 6 月 15 日从纽约到伦敦、经停雷克雅未克的航班”。结果显示,即使最强 Agent 在需要错误恢复的多步任务中也会失败。
| Agent 框架 | GAIA 验证得分 | 失败前平均步数 | 工具调用准确率 |
|---|---|---|---|
| GPT-4o + 自定义工具 | 42.1% | 8.3 | 91% |
| Claude 3.5 Sonnet + LangChain | 38.7% | 6.1 | 87% |
| AutoGPT (GPT-4) | 15.4% | 3.2 | 72% |
| Gemini 1.5 Pro + Vertex AI | 40.5% | 7.5 | 89% |
*数据要点:即使最强 Agent 在复杂多步任务中失败率仍超 50%。可靠性,而非能力,是当前瓶颈。工具调用准确率较高(87-91%)表明单个动作没问题,但编排逻辑(规划、错误恢复)薄弱。*
关键玩家与案例研究
构建“Agentic OS”的竞赛正在多条战线展开。
微软 正在将 Agent 直接嵌入 Office 套件。Microsoft Copilot 在 Word、Excel 和 Outlook 中是最显眼的例子。它可以起草邮件、总结会议,甚至根据自然语言生成图表。然而,它很大程度上仍是“副驾驶”——它提供建议,但不会跨应用自主执行多步工作流。即将推出的 Copilot Studio 允许用户构建可触发 Power Automate 流程的自定义 Agent,但这仍需手动设置。
Anthropic 采取了不同路径,推出 Computer Use 功能(Claude 3.5 Sonnet 的 beta 版)。该功能不依赖 API,而是让模型查看截图并移动光标、打字。这是根本性突破:它将任何现有固定应用视为可操控的工具。在演示中,Claude 可以填写网页表单、浏览文件资源管理器,甚至编写代码。代价是速度和可靠性——它很慢且容易产生视觉错误。
初创公司行动更快。 Adept AI(由前 Google 研究员 David Luan 创立)正在构建可操控任何软件的通用 Agent。其演示展示了 Agent 通过浏览网站预订租车。Sierra(由 Bret Taylor 联合创立)专注于企业客服 Agent。Mosaic(现属 Databricks)为针对特定工具使用任务微调模型提供基础设施。
关键 Agent 平台对比:
| 平台 | 方法 | 优势 | 劣势 | 目标用户 |
|---|---|---|---|---|
| Microsoft Copilot | API 原生,深度集成 Office | 在 Office 内可靠性高;企业级安全 | 局限于微软生态;跨应用任务需手动设置流程 | 企业知识工作者 |
| Anthropic Computer Use | 视觉、基于屏幕的控制 | 适用于任何软件;无需 API | 慢(每次操作 5-10 秒);易出现视觉错误;成本高 | 开发者、高级用户 |
| Adept AI | 专有模型 + 浏览器控制 | 快速;擅长网页任务 | 局限于网页;仍处于 beta 阶段;无本地文件系统访问 | 普通消费者 |
| LangChain/CrewAI(开源) | 自定义 Agent 框架 | 最大灵活性;社区驱动 | 需要大量工程投入;无内置安全机制 | 开发者、研究人员 |
*数据要点:尚无单一方案胜出。微软占据办公生产力高地,Anthropic 探索通用操控路径,开源社区则提供最大灵活性。*