技术深度解析
步骤级优化的核心创新在于一个计算感知的动作路由器,它位于智能体的高层规划器与执行引擎之间。传统智能体(如使用计算机工具的GPT-4)遵循一个单一循环:观察屏幕 → 推理 → 行动 → 重复。在每一步,整个多模态输入(截图+动作历史)都被送入一个单一的大模型。这在计算上是浪费的,因为绝大多数动作在语义上都很浅显。
架构组件
1. 复杂度估算器:一个轻量级分类器(通常是蒸馏后的BERT或小型ViT),根据视觉上下文的模糊性、可能的下一个动作数量以及状态的新颖性,为每个传入的动作请求打分(1-10分)。该模型在CPU上运行时间低于10毫秒。
2. 分层模型池:
- 第1层(基于规则):用于确定性动作,如“点击坐标(x,y)处的元素”或“在聚焦字段中输入字符串”。成本:约0。
- 第2层(轻量模型):一个0.5B-1.5B参数的视觉语言模型(例如微软的Florence-2或微调后的Phi-3-vision),用于简单语义动作,如“找到搜索栏”或“点击红色按钮”。成本:约每次调用0.0001美元。
- 第3层(中型模型):一个7B-13B模型(例如Qwen-VL或LLaVA-NeXT),用于中等推理,如“从这张发票表格中提取总额”。成本:约每次调用0.001美元。
- 第4层(前沿模型):GPT-4o、Claude 3.5 Sonnet或Gemini 2.0,用于复杂推理,如“此表单验证失败;判断是日期格式问题还是缺少字段,并进行相应调整”。成本:约每次调用0.01-0.05美元。
3. 反馈循环:每次动作后,系统记录实际复杂度(通过所用时间、所需重试次数衡量),并通过在线学习调整估算器的阈值。
基准性能
2025年一项针对OSWorld基准测试(包含350多项计算机任务的套件)的早期研究显示出了显著改进:
| 指标 | 单一GPT-4o智能体 | 步骤级优化智能体 | 改进幅度 |
|---|---|---|---|
| 每项任务平均成本 | 0.42美元 | 0.06美元 | 降低85% |
| 每步中位延迟 | 2.8秒 | 0.4秒 | 降低86% |
| 任务成功率 | 72.3% | 74.1% | +1.8% |
| 高复杂度任务成功率 | 58.1% | 61.4% | +3.3% |
| 低复杂度任务成功率 | 89.2% | 91.0% | +1.8% |
数据要点:步骤级方法不仅将成本降低了一个数量级,还*提高*了准确性,这很可能是因为将简单任务路由到专用模型,避免了大型模型在琐碎决策上可能出现的“过度思考”。
一个关键的开源实现是'AgentStep'仓库(github.com/agentstep/agentstep,约4.2k星标),它提供了一个用于构建分层智能体管道的模块化框架。它使用微调后的DeBERTa-v3作为复杂度估算器,并支持每层的可插拔后端。
关键参与者与案例研究
多个组织正在竞相将这种方法商业化:
1. Anthropic:其“Computer Use”测试版(Claude 3.5 Sonnet)已经融入了步骤级路由的初步形式。Anthropic研究人员发布的内部基准测试显示,通过使用一个小型分类器来跳过琐碎动作(例如“将鼠标移动到屏幕中央”)的模型调用,他们在不降低性能的情况下将API成本降低了40%。预计他们将在2025年第三季度发布一个完整的分层智能体SDK。
2. 微软:“Windows Agent”团队已将步骤级优化集成到其内部自动化框架中。他们使用蒸馏版的Florence-2处理第2层动作,并将GPT-4保留用于错误恢复。在一个自动化SAP数据录入的案例研究中,他们将每笔交易成本从0.18美元降至0.02美元。
3. OpenAI:虽然OpenAI尚未公开讨论步骤级路由,但其“Operator”智能体(2025年初推出)显示出分层执行的迹象——简单的网页导航任务明显比复杂的更快,这表明存在后端路由机制。
4. 初创公司:
- Reworkd(YC W24)构建了一个无代码智能体构建器,可自动分析工作流的每一步,并分配能处理该步骤的最便宜模型。他们声称典型数据抓取任务的成本降低了92%。
- Induced AI专注于企业后台自动化,使用自定义的7B模型处理80%的动作,仅将前沿模型保留用于边缘情况。
竞争对比
| 公司/产品 | 分层模型方法 | 声称的成本降低 | 主要用例 |
|---|---|---|---|
| Anthropic (Claude Computer Use) | 内部分类器 + 动态路由 | 40% | 通用计算机使用 |
| 微软 (Windows Agent) | Florence-2 + GPT-4 | 89% | 企业SaaS自动化 |
| Reworkd | 自动分析 + 最便宜模型 | 92% | 网页抓取、数据录入 |
| Induced AI | 自定义7B + 前沿模型回退 | 85% | 后台工作流 |
数据要点:成本降低的声称差异很大(40-