SaaS-Bench击碎AI办公幻想：Claude仅3.8%通过率暴露深层缺陷

UniPat AI发布了SaaS-Bench，这是一个旨在严格评估大语言模型（LLM）在多个SaaS平台上执行真实多步骤办公任务能力的评测框架。结果对“AI代理”炒作周期而言堪称毁灭性打击。包括Anthropic的Claude在内的顶级模型，在诸如向CRM录入数据、撰写上下文感知的邮件回复、以及跨Salesforce、Google Sheets和Slack同步更新等任务中，完整通过率仅为3.8%。该基准测试模拟了真实的跨平台工作流，发现当UI状态意外变化时，模型在“复制、粘贴和保存”等基本操作上频繁失败。这并非微小的准确性问题，而是长程规划与动态UI适应方面的结构性失败。

技术深度解析

SaaS-Bench暴露了精心策划的演示环境与企业软件混乱现实之间的关键鸿沟。该基准测试包含50项任务，每项任务需要跨多个SaaS工具执行5到15个步骤。任务包括：“根据邮件附件更新Salesforce中的一条线索，然后在Slack中向销售团队发送摘要通知。”

核心失败模式是长程任务连贯性。当前的LLM，即使采用思维链提示，在扩展的动作序列中也会遭受注意力衰减。当一个模型必须在保持CRM记录一致心智模型的同时，切换上下文到邮件客户端再到Slack时，错误概率会呈指数级增长。任务平均需要9.3个步骤；模型平均在第4步之后就会丢失中间目标。

另一个关键缺陷是动态UI适应。该基准测试引入了非确定性的UI状态——弹窗、加载旋转器和布局偏移。主要基于静态网页训练的模型，在按钮移动或模态框出现时无法重新规划。例如，Claude曾尝试点击一个在验证错误后已被“提交”按钮替换的“保存”按钮，导致该子任务100%失败。

| 模型 | 完整通过率 | 部分通过率（≥70%步骤） | 失败前平均步数 | 平均任务完成时间（模拟） |
|---|---|---|---|---|
| Claude 3.5 Sonnet | 3.8% | 14.2% | 4.1 | 47秒 |
| GPT-4o | 2.1% | 11.5% | 3.8 | 52秒 |
| Gemini 1.5 Pro | 1.6% | 9.7% | 3.5 | 58秒 |
| 最佳开源模型 (Qwen2.5-72B) | 0.4% | 4.1% | 2.2 | 89秒 |

数据要点： 完整通过率与部分通过率之间的差距（Claude为3.8%对14.2%）表明，模型通常能正确启动任务，但无法维持连贯性直至完成。开源模型性能的急剧下降凸显了即使是微弱的代理能力，也高度依赖于专有训练数据和微调。

从工程角度来看，问题在于规划-执行-观察循环。当前的代理使用一种脆弱的模式：生成计划、执行一步、观察结果、然后重新规划。但当观察结果充满噪声时（例如，弹窗遮挡了目标元素），模型的内部状态就会发生偏离。GitHub仓库[cognee-ai/cognee](https://github.com/cognee-ai/cognee)（近期获得2.8k星标）试图通过基于图的记忆来解决这个问题，但仍处于实验阶段。另一个值得注意的努力是[Microsoft的TaskWeaver](https://github.com/microsoft/TaskWeaver)（5.4k星标），它使用代码生成进行工具调用，但其对预定义插件的依赖限制了其对未见过的SaaS UI的泛化能力。

关键参与者与案例研究

该基准测试的创建者UniPat AI是一家专注于代理评估的相对较新的入局者。其方法论以使用人在回路中的真实数据而著称——每项任务由3名专业办公室职员执行以建立基线，然后将模型的动作与之进行逐步比较。这比pass@k等自动化指标更为严格。

Anthropic的Claude是表现最佳的模型，但其3.8%的通过率对于任何生产用例来说都是灾难性的。Anthropic大力推广其“Computer Use”能力，但SaaS-Bench表明这些演示很可能是精心挑选的单步任务。OpenAI的GPT-4o尽管在多模态方面实力强大，但得分较低，可能是因为其工具使用微调是针对API调用而非GUI交互优化的。Google的Gemini 1.5 Pro拥有百万token的上下文窗口，理论上应在长程任务中表现出色，但在前三名中表现最差。这表明原始上下文长度并非瓶颈——真正的问题在于模型在该上下文中关注相关信息的能力。

| 公司 | 产品 | SaaS-Bench完整通过率 | 识别出的关键局限 |
|---|---|---|---|
| Anthropic | Claude + Computer Use | 3.8% | 无法从UI状态变化中恢复 |
| OpenAI | GPT-4o + Operator | 2.1% | 多工具编排能力差 |
| Google | Gemini 1.5 Pro + Project Mariner | 1.6% | 长任务中注意力稀释 |
| Adept | ACT-1（内部） | 未测试 | — |
| Cognition | Devin | 未测试（代码聚焦） | — |

数据要点： 最佳专有模型集中在1.6%–3.8%的范围内，表明这是一个系统性天花板，而非竞争差异化因素。没有一家公司破解了核心问题。

像Adept（融资3.5亿美元）和Cognition（融资1.75亿美元）这样的初创公司，其整个理念都建立在自主代理之上。Adept的ACT-1模型曾演示执行网页任务，但尚未在SaaS-Bench上公开进行基准测试。如果其表现与Claude相似，它们的估值可能面临风险。同样，Mendable（现为Sourcegraph的一部分）和Reworkd（AgentGPT）专注于更简单的单域代理，这可能是更安全的选择。

行业影响与市场动态

SaaS-Bench的结果出现在一个关键的转折点。“AI代理”市场此前预计将达到471亿美元。

时间归档

延伸阅读

常见问题

这次模型发布“SaaS-Bench Shatters AI Office Dreams: Claude's 3.8% Pass Rate Exposes Deep Flaws”的核心内容是什么？

UniPat AI has released SaaS-Bench, a rigorous evaluation framework designed to test the ability of large language models (LLMs) to perform realistic, multi-step office tasks across…

从“Why do AI agents fail at multi-step office tasks?”看，这个模型发布为什么重要？

SaaS-Bench exposes a critical gap between curated demo environments and the messy reality of enterprise software. The benchmark comprises 50 tasks, each requiring 5–15 steps across multiple SaaS tools. Tasks include: 'Up…

围绕“SaaS-Bench vs other AI benchmarks comparison”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。