技术深度解析
SaaS-Bench暴露了精心策划的演示环境与企业软件混乱现实之间的关键鸿沟。该基准测试包含50项任务,每项任务需要跨多个SaaS工具执行5到15个步骤。任务包括:“根据邮件附件更新Salesforce中的一条线索,然后在Slack中向销售团队发送摘要通知。”
核心失败模式是长程任务连贯性。当前的LLM,即使采用思维链提示,在扩展的动作序列中也会遭受注意力衰减。当一个模型必须在保持CRM记录一致心智模型的同时,切换上下文到邮件客户端再到Slack时,错误概率会呈指数级增长。任务平均需要9.3个步骤;模型平均在第4步之后就会丢失中间目标。
另一个关键缺陷是动态UI适应。该基准测试引入了非确定性的UI状态——弹窗、加载旋转器和布局偏移。主要基于静态网页训练的模型,在按钮移动或模态框出现时无法重新规划。例如,Claude曾尝试点击一个在验证错误后已被“提交”按钮替换的“保存”按钮,导致该子任务100%失败。
| 模型 | 完整通过率 | 部分通过率(≥70%步骤) | 失败前平均步数 | 平均任务完成时间(模拟) |
|---|---|---|---|---|
| Claude 3.5 Sonnet | 3.8% | 14.2% | 4.1 | 47秒 |
| GPT-4o | 2.1% | 11.5% | 3.8 | 52秒 |
| Gemini 1.5 Pro | 1.6% | 9.7% | 3.5 | 58秒 |
| 最佳开源模型 (Qwen2.5-72B) | 0.4% | 4.1% | 2.2 | 89秒 |
数据要点: 完整通过率与部分通过率之间的差距(Claude为3.8%对14.2%)表明,模型通常能正确启动任务,但无法维持连贯性直至完成。开源模型性能的急剧下降凸显了即使是微弱的代理能力,也高度依赖于专有训练数据和微调。
从工程角度来看,问题在于规划-执行-观察循环。当前的代理使用一种脆弱的模式:生成计划、执行一步、观察结果、然后重新规划。但当观察结果充满噪声时(例如,弹窗遮挡了目标元素),模型的内部状态就会发生偏离。GitHub仓库[cognee-ai/cognee](https://github.com/cognee-ai/cognee)(近期获得2.8k星标)试图通过基于图的记忆来解决这个问题,但仍处于实验阶段。另一个值得注意的努力是[Microsoft的TaskWeaver](https://github.com/microsoft/TaskWeaver)(5.4k星标),它使用代码生成进行工具调用,但其对预定义插件的依赖限制了其对未见过的SaaS UI的泛化能力。
关键参与者与案例研究
该基准测试的创建者UniPat AI是一家专注于代理评估的相对较新的入局者。其方法论以使用人在回路中的真实数据而著称——每项任务由3名专业办公室职员执行以建立基线,然后将模型的动作与之进行逐步比较。这比pass@k等自动化指标更为严格。
Anthropic的Claude是表现最佳的模型,但其3.8%的通过率对于任何生产用例来说都是灾难性的。Anthropic大力推广其“Computer Use”能力,但SaaS-Bench表明这些演示很可能是精心挑选的单步任务。OpenAI的GPT-4o尽管在多模态方面实力强大,但得分较低,可能是因为其工具使用微调是针对API调用而非GUI交互优化的。Google的Gemini 1.5 Pro拥有百万token的上下文窗口,理论上应在长程任务中表现出色,但在前三名中表现最差。这表明原始上下文长度并非瓶颈——真正的问题在于模型在该上下文中关注相关信息的能力。
| 公司 | 产品 | SaaS-Bench完整通过率 | 识别出的关键局限 |
|---|---|---|---|
| Anthropic | Claude + Computer Use | 3.8% | 无法从UI状态变化中恢复 |
| OpenAI | GPT-4o + Operator | 2.1% | 多工具编排能力差 |
| Google | Gemini 1.5 Pro + Project Mariner | 1.6% | 长任务中注意力稀释 |
| Adept | ACT-1(内部) | 未测试 | — |
| Cognition | Devin | 未测试(代码聚焦) | — |
数据要点: 最佳专有模型集中在1.6%–3.8%的范围内,表明这是一个系统性天花板,而非竞争差异化因素。没有一家公司破解了核心问题。
像Adept(融资3.5亿美元)和Cognition(融资1.75亿美元)这样的初创公司,其整个理念都建立在自主代理之上。Adept的ACT-1模型曾演示执行网页任务,但尚未在SaaS-Bench上公开进行基准测试。如果其表现与Claude相似,它们的估值可能面临风险。同样,Mendable(现为Sourcegraph的一部分)和Reworkd(AgentGPT)专注于更简单的单域代理,这可能是更安全的选择。
行业影响与市场动态
SaaS-Bench的结果出现在一个关键的转折点。“AI代理”市场此前预计将达到471亿美元。