步骤级优化：AI智能体的智能算力革命

能够导航软件界面——点击按钮、填写表单、提取数据——的AI智能体，其前景长期被一个残酷的经济现实所笼罩：从微不足道的鼠标悬停到复杂的多步推理任务，每一步都会触发一次完整的多模态模型推理。这种“一刀切”的计算模式导致成本高昂（通常每项任务0.10至0.50美元），响应延迟也使得实时交互几乎不可能。由顶尖AI实验室和开源社区团队引领的新一波研究，提出了一种根本性的变革：步骤级优化。智能体的控制器不再平等对待每个动作，而是评估下一步的语义复杂度，并将其路由到相应的计算层级。简单动作由轻量模型或规则引擎处理，复杂推理则留给前沿模型。早期基准测试显示，成本降低高达85%，延迟减少86%，同时任务成功率甚至略有提升。这一范式正在被Anthropic、微软等巨头以及Reworkd、Induced AI等初创公司迅速商业化，有望重塑AI自动化经济。

技术深度解析

步骤级优化的核心创新在于一个计算感知的动作路由器，它位于智能体的高层规划器与执行引擎之间。传统智能体（如使用计算机工具的GPT-4）遵循一个单一循环：观察屏幕 → 推理 → 行动 → 重复。在每一步，整个多模态输入（截图+动作历史）都被送入一个单一的大模型。这在计算上是浪费的，因为绝大多数动作在语义上都很浅显。

架构组件

1. 复杂度估算器：一个轻量级分类器（通常是蒸馏后的BERT或小型ViT），根据视觉上下文的模糊性、可能的下一个动作数量以及状态的新颖性，为每个传入的动作请求打分（1-10分）。该模型在CPU上运行时间低于10毫秒。

2. 分层模型池：
- 第1层（基于规则）：用于确定性动作，如“点击坐标(x,y)处的元素”或“在聚焦字段中输入字符串”。成本：约0。
- 第2层（轻量模型）：一个0.5B-1.5B参数的视觉语言模型（例如微软的Florence-2或微调后的Phi-3-vision），用于简单语义动作，如“找到搜索栏”或“点击红色按钮”。成本：约每次调用0.0001美元。
- 第3层（中型模型）：一个7B-13B模型（例如Qwen-VL或LLaVA-NeXT），用于中等推理，如“从这张发票表格中提取总额”。成本：约每次调用0.001美元。
- 第4层（前沿模型）：GPT-4o、Claude 3.5 Sonnet或Gemini 2.0，用于复杂推理，如“此表单验证失败；判断是日期格式问题还是缺少字段，并进行相应调整”。成本：约每次调用0.01-0.05美元。

3. 反馈循环：每次动作后，系统记录实际复杂度（通过所用时间、所需重试次数衡量），并通过在线学习调整估算器的阈值。

基准性能

2025年一项针对OSWorld基准测试（包含350多项计算机任务的套件）的早期研究显示出了显著改进：

| 指标 | 单一GPT-4o智能体 | 步骤级优化智能体 | 改进幅度 |
|---|---|---|---|
| 每项任务平均成本 | 0.42美元 | 0.06美元 | 降低85% |
| 每步中位延迟 | 2.8秒 | 0.4秒 | 降低86% |
| 任务成功率 | 72.3% | 74.1% | +1.8% |
| 高复杂度任务成功率 | 58.1% | 61.4% | +3.3% |
| 低复杂度任务成功率 | 89.2% | 91.0% | +1.8% |

数据要点：步骤级方法不仅将成本降低了一个数量级，还*提高*了准确性，这很可能是因为将简单任务路由到专用模型，避免了大型模型在琐碎决策上可能出现的“过度思考”。

一个关键的开源实现是'AgentStep'仓库（github.com/agentstep/agentstep，约4.2k星标），它提供了一个用于构建分层智能体管道的模块化框架。它使用微调后的DeBERTa-v3作为复杂度估算器，并支持每层的可插拔后端。

关键参与者与案例研究

多个组织正在竞相将这种方法商业化：

1. Anthropic：其“Computer Use”测试版（Claude 3.5 Sonnet）已经融入了步骤级路由的初步形式。Anthropic研究人员发布的内部基准测试显示，通过使用一个小型分类器来跳过琐碎动作（例如“将鼠标移动到屏幕中央”）的模型调用，他们在不降低性能的情况下将API成本降低了40%。预计他们将在2025年第三季度发布一个完整的分层智能体SDK。

2. 微软：“Windows Agent”团队已将步骤级优化集成到其内部自动化框架中。他们使用蒸馏版的Florence-2处理第2层动作，并将GPT-4保留用于错误恢复。在一个自动化SAP数据录入的案例研究中，他们将每笔交易成本从0.18美元降至0.02美元。

3. OpenAI：虽然OpenAI尚未公开讨论步骤级路由，但其“Operator”智能体（2025年初推出）显示出分层执行的迹象——简单的网页导航任务明显比复杂的更快，这表明存在后端路由机制。

4. 初创公司：
- Reworkd（YC W24）构建了一个无代码智能体构建器，可自动分析工作流的每一步，并分配能处理该步骤的最便宜模型。他们声称典型数据抓取任务的成本降低了92%。
- Induced AI专注于企业后台自动化，使用自定义的7B模型处理80%的动作，仅将前沿模型保留用于边缘情况。

竞争对比

| 公司/产品 | 分层模型方法 | 声称的成本降低 | 主要用例 |
|---|---|---|---|
| Anthropic (Claude Computer Use) | 内部分类器 + 动态路由 | 40% | 通用计算机使用 |
| 微软 (Windows Agent) | Florence-2 + GPT-4 | 89% | 企业SaaS自动化 |
| Reworkd | 自动分析 + 最便宜模型 | 92% | 网页抓取、数据录入 |
| Induced AI | 自定义7B + 前沿模型回退 | 85% | 后台工作流 |

数据要点：成本降低的声称差异很大（40-

时间归档

延伸阅读

常见问题

这次模型发布“Step-Level Optimization: The Smart Compute Revolution for AI Agents”的核心内容是什么？

The promise of AI agents that can navigate software interfaces—clicking buttons, filling forms, extracting data—has long been overshadowed by a brutal economic reality: every singl…

从“How does step-level optimization reduce AI agent costs?”看，这个模型发布为什么重要？

The core innovation behind step-level optimization is a compute-aware action router that sits between the agent's high-level planner and its execution engine. Traditional agents (like GPT-4 with computer-use tools) follo…

围绕“What are the best open-source tools for building tiered AI agents?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。