Agentic AI 杀死固定应用：菜单驱动计算的终结

几十年来，软件一直要求人类学习它的语言——嵌套菜单、晦涩的快捷键、僵化的工作流。其根本前提是：用户必须适应机器。而由具备工具调用能力的大语言模型（LLM）驱动的 Agentic AI，正在彻底颠覆这一范式。用户不再需要打开文件管理器批量重命名文档，只需说一句：“把我下载文件夹里所有 PDF 文件重命名，加上创建日期。”AI 智能体理解意图、访问文件系统、解析元数据并执行任务。这不是边际改进，而是从“应用即工具”到“计算机即意图执行器”的根本性转变。

这一转型由模型推理能力的进步驱动（如思维链、函数调用）。从技术架构看，Agent 系统包含三层：编排层（LLM 规划与推理）、工具层（API 或本地函数）、记忆与上下文层（短期对话与长期偏好）。开源生态中，LangChain、AutoGPT、CrewAI 等项目正快速迭代。性能基准测试（如 GAIA）显示，即使最强 Agent 在复杂多步任务中失败率仍超 50%，可靠性是当前瓶颈。

市场格局上，微软将 Copilot 嵌入 Office 全家桶，但仍是“副驾驶”模式；Anthropic 的 Computer Use 功能通过截图操控任何软件，但速度慢且易出错；初创公司 Adept AI、Sierra 等则在通用 Agent 与企业客服领域快速推进。目前尚无单一方案胜出，微软占据办公生产力高地，Anthropic 探索通用操控路径，开源社区则提供最大灵活性。

技术深度解析

从固定应用到 Agentic AI 的转变并非单一技术，而是多项关键进步的汇聚。核心在于 LLM 执行 函数调用 的能力——模型输出结构化 JSON 以调用外部工具。OpenAI 的 GPT-4o、Anthropic 的 Claude 3.5 Sonnet 和 Google 的 Gemini 1.5 Pro 均原生支持此功能。模型接收可用函数列表（如 `rename_file`、`search_web`、`send_email`）及其模式，并根据用户的自然语言请求决定调用哪个函数。

Agent 架构： 典型 Agent 系统包含三层：
1. 编排层： 负责规划与推理的 LLM。它使用 ReAct（推理+行动）或思维链等技术将复杂请求分解为步骤。
2. 工具层： 一组 API 或本地函数。可包括文件系统操作、Web API（Slack、Gmail、Notion），甚至其他 AI 模型。
3. 记忆与上下文： 短期上下文（当前对话）和长期记忆（用户偏好、历史操作）。MemGPT（现更名为 Letta）等项目为 Agent 显式添加了虚拟记忆系统。

开源生态： GitHub 仓库 LangChain（超 10 万星）提供了链式调用 LLM 和工具集成的框架。AutoGPT（超 17 万星）是自主 Agent 的早期实验，但可靠性不足。较新的 CrewAI（超 2.5 万星）专注于多 Agent 协作，让专业 Agent（如“研究员”和“写手”）协同工作。

性能基准： 评估 Agent 极其困难。GAIA 基准测试（通用 AI 助手）测试 Agent 完成真实世界任务的能力，例如“预订 6 月 15 日从纽约到伦敦、经停雷克雅未克的航班”。结果显示，即使最强 Agent 在需要错误恢复的多步任务中也会失败。

| Agent 框架 | GAIA 验证得分 | 失败前平均步数 | 工具调用准确率 |
|---|---|---|---|
| GPT-4o + 自定义工具 | 42.1% | 8.3 | 91% |
| Claude 3.5 Sonnet + LangChain | 38.7% | 6.1 | 87% |
| AutoGPT (GPT-4) | 15.4% | 3.2 | 72% |
| Gemini 1.5 Pro + Vertex AI | 40.5% | 7.5 | 89% |

*数据要点：即使最强 Agent 在复杂多步任务中失败率仍超 50%。可靠性，而非能力，是当前瓶颈。工具调用准确率较高（87-91%）表明单个动作没问题，但编排逻辑（规划、错误恢复）薄弱。*

关键玩家与案例研究

构建“Agentic OS”的竞赛正在多条战线展开。

微软正在将 Agent 直接嵌入 Office 套件。Microsoft Copilot 在 Word、Excel 和 Outlook 中是最显眼的例子。它可以起草邮件、总结会议，甚至根据自然语言生成图表。然而，它很大程度上仍是“副驾驶”——它提供建议，但不会跨应用自主执行多步工作流。即将推出的 Copilot Studio 允许用户构建可触发 Power Automate 流程的自定义 Agent，但这仍需手动设置。

Anthropic 采取了不同路径，推出 Computer Use 功能（Claude 3.5 Sonnet 的 beta 版）。该功能不依赖 API，而是让模型查看截图并移动光标、打字。这是根本性突破：它将任何现有固定应用视为可操控的工具。在演示中，Claude 可以填写网页表单、浏览文件资源管理器，甚至编写代码。代价是速度和可靠性——它很慢且容易产生视觉错误。

初创公司行动更快。 Adept AI（由前 Google 研究员 David Luan 创立）正在构建可操控任何软件的通用 Agent。其演示展示了 Agent 通过浏览网站预订租车。Sierra（由 Bret Taylor 联合创立）专注于企业客服 Agent。Mosaic（现属 Databricks）为针对特定工具使用任务微调模型提供基础设施。

关键 Agent 平台对比：

| 平台 | 方法 | 优势 | 劣势 | 目标用户 |
|---|---|---|---|---|
| Microsoft Copilot | API 原生，深度集成 Office | 在 Office 内可靠性高；企业级安全 | 局限于微软生态；跨应用任务需手动设置流程 | 企业知识工作者 |
| Anthropic Computer Use | 视觉、基于屏幕的控制 | 适用于任何软件；无需 API | 慢（每次操作 5-10 秒）；易出现视觉错误；成本高 | 开发者、高级用户 |
| Adept AI | 专有模型 + 浏览器控制 | 快速；擅长网页任务 | 局限于网页；仍处于 beta 阶段；无本地文件系统访问 | 普通消费者 |
| LangChain/CrewAI（开源） | 自定义 Agent 框架 | 最大灵活性；社区驱动 | 需要大量工程投入；无内置安全机制 | 开发者、研究人员 |

*数据要点：尚无单一方案胜出。微软占据办公生产力高地，Anthropic 探索通用操控路径，开源社区则提供最大灵活性。*

时间归档

延伸阅读

常见问题

这次模型发布“Agentic AI Kills Fixed Apps: The End of Menu-Driven Computing”的核心内容是什么？

For decades, software has demanded that humans learn its language—nested menus, obscure keyboard shortcuts, and rigid workflows. The fundamental premise was that the user must adap…

从“Will agentic AI replace all mobile apps?”看，这个模型发布为什么重要？

The shift from fixed apps to agentic AI is not a single technology but a convergence of several critical advances. At the core is the LLM's ability to perform function calling—a technique where the model outputs structur…

围绕“How does agentic AI handle security and privacy?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。