AI能耗新思维:任务完成度才是真度量,Token数只是假指标

arXiv cs.AI May 2026
来源:arXiv cs.AI归档:May 2026
AI行业对单次推理能耗的执念,在智能体系统中已沦为误导性指标。一项名为“成功目标能耗”的新框架,正试图将效率度量与真实世界价值对齐,迫使业界从系统架构到定价模式全面反思。

当前衡量AI能耗的标准——每次推理成本或每个训练周期的成本——是单轮查询时代的遗物。对于现代智能体系统,它们能自主编排多步骤任务(如预订航班和酒店),这一指标具有危险的误导性。一个成功的任务结果可能需要十次模型调用、三次API请求、两次失败回滚和一次错误恢复。旧指标只统计那十次调用,完全忽略了任务完成的效率。

AINews推出新兴的“成功目标能耗”(EPSG)框架,将效率关注点从原始算力转移到任务完成成本。这并非纯粹的学术练习,而是我们评估AI劳动价值的根本性转变。该框架直击核心问题:我们究竟是在为计算付费,还是为结果付费?EPSG框架的提出,意味着从“每Token多少钱”到“每成功任务多少钱”的范式跃迁,它将迫使云服务商、模型提供商和应用开发者重新设计定价模型和系统架构。

技术深度解析

当前AI能耗指标的核心问题在于其计量单位。每次推理成本(如$/1M tokens)是一个硬件层面的指标,它抽象掉了任务执行的复杂性。对于单轮问答,这尚可接受;但对于智能体系统,则完全不够。

一个智能体工作流,例如“预订下周一至周三去东京的商务旅行”,涉及一个复杂的非线性执行图:

1. 规划: 智能体将目标分解为子任务(航班搜索、酒店搜索、日历检查)。
2. 工具调用: 它向航班聚合器、酒店预订网站和日历服务发出API调用。
3. 推理与重新规划: 如果第一个航班选项不可用,智能体必须重新查询、重新排序并重新规划。
4. 错误恢复: 失败的API调用需要使用不同参数重试或回退到辅助服务。
5. 验证: 智能体必须验证预订的航班和酒店是否兼容(例如,到达时间与入住时间)。

每一步都涉及一次或多次模型推理。一个朴素的系统可能需要50次推理才能成功。一个优化良好的系统可能只需要10次。每次推理指标会惩罚第一个系统“浪费”,但如果第二个系统有40%的失败率(需要重新运行),其“成功目标能耗”(EPSG)反而可能更高。

EPSG框架

EPSG公式非常直接:

EPSG =(智能体系统消耗的总能量)/(成功完成的任务数)

这包括:
- 所有模型推理的能量(包括失败的尝试)。
- API调用和工具执行的能量。
- 记忆检索和状态管理的能量。
- 错误恢复和重试逻辑的能量。

这迫使关注点转向系统级效率而非组件级效率。一个关键的技术杠杆是智能体记忆。能够缓存成功子任务计划(例如,“这个航班搜索模式上次成功了”)的系统,可以大幅减少未来类似任务所需的推理次数。开源仓库MemGPT(现更名为Letta,约20k星标)正在通过为智能体提供跨会话持久化的虚拟上下文窗口来开创这一领域,使其能够从过去的成功和失败中学习。

另一个关键领域是工具编排。智能体调用外部API的方式是一个主要的能量消耗点。设计不佳的智能体可能使用过于宽泛的参数调用航班API,收到大量响应,然后使用另一次推理来过滤。更好的设计采用结构化工具调用方法(如OpenAI的function calling或Anthropic的tool use),模型直接输出一个JSON对象,用精确参数查询API。这既降低了推理成本,也降低了API数据传输成本。

EPSG基准测试

当前的基准测试如GAIA或WebArena衡量任务成功率,但不衡量能耗成本。我们需要新一代的基准测试。下表展示了两种智能体架构在同一任务上的假设性对比:

| 智能体架构 | 每任务平均推理次数 | 任务成功率 | 总能耗(估计焦耳) | EPSG(每成功焦耳数) |
|---|---|---|---|---|
| 朴素ReAct(无记忆) | 45 | 75% | 900 | 1200 |
| 优化ReAct(带记忆+结构化工具) | 12 | 95% | 240 | 252.6 |

数据要点: 优化架构每任务使用的推理次数减少了79%,但更重要的是,其EPSG降低了79%。朴素系统的低成功率放大了其能量浪费。这表明仅优化推理次数是不够的;成功率是能量效率的倍增器。

关键玩家与案例研究

已有数家公司和开源项目在有意或无意地采纳EPSG思维。

LangChain(LangChain Inc.)
LangChain的框架提供了`AgentExecutor`和`Toolkits`等抽象,这些抽象天然地追踪任务完成情况。他们最近对LangGraph(一个用于构建有状态、多参与者智能体的库)的关注,是对管理复杂多步骤工作流需求的直接回应。LangChain的`callbacks`系统允许开发者记录每一步,包括失败和重试,从而可以计算EPSG。他们还在推动基于轨迹的评估而非单一输出评估,这与EPSG理念一致。

AutoGPT(Significant Gravitas)
最初的AutoGPT项目展示了自主智能体的强大能力,也暴露了其能量低效。早期版本会陷入循环,进行数百次API调用却无法完成任务。社区向约束型智能体(使用`forks`和`pinned memories`)的演进,实际上默认了原始推理次数并非目标。最新版本的AutoGPT强调任务分解进度追踪,这对EPSG优化至关重要。

CrewAI
CrewAI的多智能体框架

更多来自 arXiv cs.AI

基准测试幻象:为何高分AI模型在真实知识工作中频频翻车AI行业长期以来一直以模型在MMLU、HumanEval和GSM8K等基准测试排行榜上名列前茅为荣。但一项由多机构研究人员联合开展的新研究指出,这些指标与真实知识工作的需求存在根本性错位。研究认为,当前基准测试仍遵循传统NLP任务的逻辑——战略推理盲区:为何大语言模型在真实经济博弈中频频翻车大语言模型作为经济智能体的部署——在广告拍卖中出价、谈判合同、交易资产——其速度已远超我们评估其战略能力的能力。AINews的深度分析指出,现有基于固定博弈论模型(如囚徒困境、最后通牒博弈)的基准测试,正随着模型能力的提升而迅速饱和。这制造Foundation Protocol:为智能体社会打造的隐藏操作系统孤立的AI智能体时代正在终结。随着自主系统从单一用途工具演变为数字社会的基础设施,一个关键瓶颈浮出水面:协调。一篇新论文介绍了Foundation Protocol,这是一个专为智能体间协调而构建的协议层。它解决了建立可靠关系、组织多智能体查看来源专题页arXiv cs.AI 已收录 380 篇文章

时间归档

May 20262708 篇已发布文章

延伸阅读

基准测试幻象:为何高分AI模型在真实知识工作中频频翻车一项突破性研究揭露了AI评估中的致命缺陷:基准测试分数对真实知识工作具有误导性。AINews深度解析提出的三步框架——任务分解、动态评估与部署模拟——旨在为医学、法律和软件工程等高 stakes 领域重建对AI的信任。战略推理盲区:为何大语言模型在真实经济博弈中频频翻车大语言模型正被越来越多地部署为自主经济智能体,参与广告竞价、合同谈判与资产交易。然而,它们的战略推理能力仍是一个黑箱。全新的GENSTRAT框架揭示,现有基准测试正在制造危险的“能力幻觉”,业界亟需建立一套关于AI经济行为的新科学。Foundation Protocol:为智能体社会打造的隐藏操作系统一篇新论文提出了Foundation Protocol,这是一个专为自主AI智能体设计的协调层。它直击信任、身份、价值交换与人类监督等根本性瓶颈,有望将孤立的AI工具转化为一个功能完备、可问责的数字经济体。AutoResearch AI:全自主科学发现的黎明AutoResearch AI 并非又一款 AI 助手,而是一份自主科学发现的蓝图。这一端到端系统能独立完成文献综述、生成假设、设计实验、验证结果并修订报告,标志着从点状解决方案到全流程自动化的根本性转变。

常见问题

这次模型发布“Rethinking AI Energy: Why Task Completion, Not Token Count, Is the Real Metric”的核心内容是什么?

The current standard for measuring AI energy consumption—cost per inference or per training epoch—is a relic of the single-turn query era. For modern agentic systems that autonomou…

从“How to calculate energy per successful goal for AI agents”看,这个模型发布为什么重要?

The core problem with current AI energy metrics is their unit of measurement. Per-inference cost (e.g., $/1M tokens) is a hardware-level metric that abstracts away the complexity of task execution. For a single-turn Q&A…

围绕“Best open-source tools for measuring agent energy efficiency”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。