SaaS-Bench击碎AI办公幻想:Claude仅3.8%通过率暴露深层缺陷

May 2026
归档:May 2026
UniPat AI发布的全新基准测试SaaS-Bench显示,包括Claude在内的顶级大语言模型在完成复杂多步骤办公工作流时,完整通过率仅为3.8%。这一结果彻底粉碎了全自主AI办公助手的叙事,揭示了模型在任务连贯性和动态UI交互方面的根本性局限。

UniPat AI发布了SaaS-Bench,这是一个旨在严格评估大语言模型(LLM)在多个SaaS平台上执行真实多步骤办公任务能力的评测框架。结果对“AI代理”炒作周期而言堪称毁灭性打击。包括Anthropic的Claude在内的顶级模型,在诸如向CRM录入数据、撰写上下文感知的邮件回复、以及跨Salesforce、Google Sheets和Slack同步更新等任务中,完整通过率仅为3.8%。该基准测试模拟了真实的跨平台工作流,发现当UI状态意外变化时,模型在“复制、粘贴和保存”等基本操作上频繁失败。这并非微小的准确性问题,而是长程规划与动态UI适应方面的结构性失败。

技术深度解析

SaaS-Bench暴露了精心策划的演示环境与企业软件混乱现实之间的关键鸿沟。该基准测试包含50项任务,每项任务需要跨多个SaaS工具执行5到15个步骤。任务包括:“根据邮件附件更新Salesforce中的一条线索,然后在Slack中向销售团队发送摘要通知。”

核心失败模式是长程任务连贯性。当前的LLM,即使采用思维链提示,在扩展的动作序列中也会遭受注意力衰减。当一个模型必须在保持CRM记录一致心智模型的同时,切换上下文到邮件客户端再到Slack时,错误概率会呈指数级增长。任务平均需要9.3个步骤;模型平均在第4步之后就会丢失中间目标。

另一个关键缺陷是动态UI适应。该基准测试引入了非确定性的UI状态——弹窗、加载旋转器和布局偏移。主要基于静态网页训练的模型,在按钮移动或模态框出现时无法重新规划。例如,Claude曾尝试点击一个在验证错误后已被“提交”按钮替换的“保存”按钮,导致该子任务100%失败。

| 模型 | 完整通过率 | 部分通过率(≥70%步骤) | 失败前平均步数 | 平均任务完成时间(模拟) |
|---|---|---|---|---|
| Claude 3.5 Sonnet | 3.8% | 14.2% | 4.1 | 47秒 |
| GPT-4o | 2.1% | 11.5% | 3.8 | 52秒 |
| Gemini 1.5 Pro | 1.6% | 9.7% | 3.5 | 58秒 |
| 最佳开源模型 (Qwen2.5-72B) | 0.4% | 4.1% | 2.2 | 89秒 |

数据要点: 完整通过率与部分通过率之间的差距(Claude为3.8%对14.2%)表明,模型通常能正确启动任务,但无法维持连贯性直至完成。开源模型性能的急剧下降凸显了即使是微弱的代理能力,也高度依赖于专有训练数据和微调。

从工程角度来看,问题在于规划-执行-观察循环。当前的代理使用一种脆弱的模式:生成计划、执行一步、观察结果、然后重新规划。但当观察结果充满噪声时(例如,弹窗遮挡了目标元素),模型的内部状态就会发生偏离。GitHub仓库[cognee-ai/cognee](https://github.com/cognee-ai/cognee)(近期获得2.8k星标)试图通过基于图的记忆来解决这个问题,但仍处于实验阶段。另一个值得注意的努力是[Microsoft的TaskWeaver](https://github.com/microsoft/TaskWeaver)(5.4k星标),它使用代码生成进行工具调用,但其对预定义插件的依赖限制了其对未见过的SaaS UI的泛化能力。

关键参与者与案例研究

该基准测试的创建者UniPat AI是一家专注于代理评估的相对较新的入局者。其方法论以使用人在回路中的真实数据而著称——每项任务由3名专业办公室职员执行以建立基线,然后将模型的动作与之进行逐步比较。这比pass@k等自动化指标更为严格。

Anthropic的Claude是表现最佳的模型,但其3.8%的通过率对于任何生产用例来说都是灾难性的。Anthropic大力推广其“Computer Use”能力,但SaaS-Bench表明这些演示很可能是精心挑选的单步任务。OpenAI的GPT-4o尽管在多模态方面实力强大,但得分较低,可能是因为其工具使用微调是针对API调用而非GUI交互优化的。Google的Gemini 1.5 Pro拥有百万token的上下文窗口,理论上应在长程任务中表现出色,但在前三名中表现最差。这表明原始上下文长度并非瓶颈——真正的问题在于模型在该上下文中关注相关信息的能力。

| 公司 | 产品 | SaaS-Bench完整通过率 | 识别出的关键局限 |
|---|---|---|---|
| Anthropic | Claude + Computer Use | 3.8% | 无法从UI状态变化中恢复 |
| OpenAI | GPT-4o + Operator | 2.1% | 多工具编排能力差 |
| Google | Gemini 1.5 Pro + Project Mariner | 1.6% | 长任务中注意力稀释 |
| Adept | ACT-1(内部) | 未测试 | — |
| Cognition | Devin | 未测试(代码聚焦) | — |

数据要点: 最佳专有模型集中在1.6%–3.8%的范围内,表明这是一个系统性天花板,而非竞争差异化因素。没有一家公司破解了核心问题。

Adept(融资3.5亿美元)和Cognition(融资1.75亿美元)这样的初创公司,其整个理念都建立在自主代理之上。Adept的ACT-1模型曾演示执行网页任务,但尚未在SaaS-Bench上公开进行基准测试。如果其表现与Claude相似,它们的估值可能面临风险。同样,Mendable(现为Sourcegraph的一部分)和Reworkd(AgentGPT)专注于更简单的单域代理,这可能是更安全的选择。

行业影响与市场动态

SaaS-Bench的结果出现在一个关键的转折点。“AI代理”市场此前预计将达到471亿美元。

时间归档

May 20262707 篇已发布文章

延伸阅读

2026智源大会:中国AI从参数竞赛转向系统智能的战略拐点2026智源大会即将开幕,图灵奖得主与中国顶尖大模型团队齐聚一堂。我们的编辑分析指出,AI竞争已从参数规模转向系统智能,世界模型、智能体与视频生成成为新焦点。这不仅是技术盛会,更是中国AI从追赶迈向引领的战略宣言,预示着一场从模型到产品的深DeepSeek V4 缓存命中率 99.82%:AI 推理成本骤降至原来的 20%DeepSeek V4 推出全新缓存机制,以 99.82% 的命中率将大规模推理成本削减 80%。这一创新彻底改写了 AI 部署的经济账,让此前因成本过高而无法落地的实时智能体与高 Token 应用成为现实。推理计算将吞噬70%的AI基础设施:算力格局的逆转时刻一场结构性变革正在重塑AI基础设施版图:到2026年,推理计算将占据AI总计算需求的70%,彻底颠覆当前以训练为主导的范式。这一逆转标志着行业从模型创造迈向大规模部署的成熟阶段——高效服务数十亿次查询的能力,将成为新的竞争主战场。认知科学重写机器人学:前华为负责人押注十亿,用世界模型破局前华为“具身大脑”项目负责人离职创业,已获数亿元融资。团队摒弃暴力数据训练,从认知科学原理重建世界模型,旨在赋予机器人对空间、因果与决策的真正理解。

常见问题

这次模型发布“SaaS-Bench Shatters AI Office Dreams: Claude's 3.8% Pass Rate Exposes Deep Flaws”的核心内容是什么?

UniPat AI has released SaaS-Bench, a rigorous evaluation framework designed to test the ability of large language models (LLMs) to perform realistic, multi-step office tasks across…

从“Why do AI agents fail at multi-step office tasks?”看,这个模型发布为什么重要?

SaaS-Bench exposes a critical gap between curated demo environments and the messy reality of enterprise software. The benchmark comprises 50 tasks, each requiring 5–15 steps across multiple SaaS tools. Tasks include: 'Up…

围绕“SaaS-Bench vs other AI benchmarks comparison”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。