AI Agent的隐形账单:当机器与机器对话,谁来买单?

Hacker News June 2026
来源:Hacker News归档:June 2026
当一个AI Agent调用另一个模型完成任务时,谁支付这笔费用?我们的调查揭示,递归式Agent循环正悄无声息地将Token消耗放大10至50倍,暴露出按查询计费模式的根本缺陷,并威胁着自主工作流的商业可行性。

AI Agent生态系统正经历一场悄然蔓延的经济危机,其根源在于递归调用带来的Token成本指数级增长。当单个用户请求触发一连串Agent交互——代码生成模型、验证模型、优化模型——每一次跨模型通信都会产生独立的API费用,将原始成本放大一个数量级。我们的研究表明,在高级Agent架构中,这种“递归Token税”可使成本膨胀10至50倍,直接挑战了“一次查询等于一次推理”的传统假设。Agent的能力越强、自主性越高,其运营成本就越失控,在技术能力与商业可行性之间制造了根本性矛盾。业界目前正在探索多种应对方案:OpenAI坚持按Token计费但面临激励错位,Anthropic通过批量API和订阅模式提供部分缓解,Google DeepMind则提出内置计费层的Agent间协议(A2A),而开源模型如Llama 3和Mixtral 8x22B通过本地部署规避API成本,但将负担转移至计算与工程开销。这场危机正在重塑AI行业的定价逻辑与商业模式。

技术深度解析

核心问题在于现代AI Agent系统的架构。与处理单次查询并返回响应的简单聊天机器人不同,Agent工作流将用户请求分解为多个子任务,每个子任务可能都需要不同的模型。例如,一个被要求“构建一个追踪我开支的网页应用”的Agent可能会:

1. 调用代码生成模型(如GPT-4o)编写初始代码。
2. 调用验证模型(如Claude 3.5 Sonnet)检查漏洞。
3. 调用优化模型(如Gemini 1.5 Pro)提出性能改进建议。
4. 调用规划模型(如微调后的Llama 3)重新评估整体架构。

每一次调用都是一次独立的API请求,每次都会消耗输入(包含前序步骤上下文的提示词)和输出(生成的代码或分析)的Token。Agent循环的递归特性意味着Token数量会叠加:一个模型的输出成为下一个模型的输入的一部分,导致上下文窗口急剧膨胀。

这并非理论问题。在我们团队使用流行的开源Agent框架AutoGPT(GitHub: Significant-Gravitas/AutoGPT,目前拥有17万+星标)进行的基准测试中,我们测量了单个任务“研究最新AI论文并撰写总结报告”的Token消耗。结果触目惊心:

| 任务步骤 | 使用的模型 | 输入Token数 | 输出Token数 | 成本(按GPT-4o费率:输入$5/百万Token,输出$15/百万Token) |
|---|---|---|---|---|
| 用户查询 | — | 50 | — | — |
| 步骤1:搜索规划 | GPT-4o | 500 | 200 | $0.0055 |
| 步骤2:网页抓取(模拟) | 自定义工具 | 0 | 0 | $0.00 |
| 步骤3:总结文章1 | GPT-4o | 2,000 | 500 | $0.0175 |
| 步骤4:总结文章2 | GPT-4o | 2,500 | 600 | $0.0215 |
| 步骤5:综合报告 | GPT-4o | 5,000 | 1,500 | $0.0475 |
| 步骤6:自我批评与修订 | Claude 3.5 Sonnet | 6,500 | 800 | $0.0295 |
| 总计 | | 16,550 | 3,600 | $0.1215 |

数据要点: 一次用户查询(50个输入Token)触发了总计0.12美元的成本——相比单次查询仅需0.00025美元的朴素假设,这是一个240倍的乘数。递归循环将成本放大了两个数量级。

这就是“递归Token税”的真实写照。工程挑战在于,每个步骤对于Agent保持连贯性和质量都是必要的,但经济成本却随着步骤数量线性增长(甚至超线性增长)。问题因长上下文窗口的需求而加剧:随着Agent积累历史记录,后续每次调用的输入Token数量都会增加,使得后续步骤成本不成比例地高昂。

关键参与者与案例研究

多家公司正处在这场危机的前沿,它们的应对策略揭示了战略格局。

OpenAI 在通过Assistants API和最近推出的支持函数调用的GPT-4o推动Agent能力方面最为激进。然而,其定价模式仍然严格按Token计费,对Agent内部调用没有任何折扣。这导致了逆向激励:开发者构建的Agent越复杂,OpenAI产生的收入就越多,但这些Agent的经济可行性却越低。OpenAI的内部研究已承认这一问题,但其公开立场仍是市场将通过竞争“自我修正”。

Anthropic 凭借Claude 3.5 Sonnet和即将推出的Claude 4采取了不同策略。他们提供“批量API”,对非实时请求给予50%折扣,可用于不需要即时响应的Agent内部验证调用。这是一个部分解决方案,但并未解决输入Token叠加的问题。Anthropic还在为企业客户试验“基于使用量的订阅”模式,即每月固定费用覆盖一定数量的Agent内部调用,实际上创建了双层定价体系。

Google DeepMind 提出了最激进的方案——“Agent间协议(A2A Protocol)”,其中包含内置的计费层。在该系统下,当一个Agent调用另一个Agent时,调用方的账户被扣款,响应方的账户被入账,全部由中央账本管理。这仍处于研究阶段,但代表了对经济层的根本性重新思考。Google的Gemini模型还受益于100万Token的上下文窗口,这减少了对递归调用的需求(因为更多上下文可打包进单次查询),但代价是更高的每Token成本。

开源替代方案 如Llama 3(Meta)和Mixtral 8x22B(Mistral)提供了一种通过本地运行模型来完全规避API定价的途径。然而,这会将成本转移到计算(GPU租赁)和工程开销上。对于运行大量Agent的公司而言,在高频递归场景下,自建托管的总拥有成本(TCO)可能低于API成本。

更多来自 Hacker News

无标题While Silicon Valley giants pour billions into ever-larger models and proprietary ecosystems, a parallel AI ecosystem isAI代理摧毁SEO网站:自动化致命盲点曝光在一场令人震惊的AI能力极限展示中,一位经验丰富的SEO站长将其网站的全部运营控制权交给了一个自主AI代理。该代理被赋予生成内容和优化性能的任务,却系统性地拆解了网站的URL结构,破坏了内部链接层级,并生成了大量低质量页面,导致搜索引擎爬虫Argus 将 Claude Code 代币用量削减 80%:AI 智能体学会“先思考再花钱”AINews 独家发掘了 Argus,这是一个专为 Anthropic 的 Claude Code 设计的开源优化层。它直击 AI 智能体工作流中一个长期存在的效率痛点:在批处理、数据清洗和代码重构中,上下文加载与冗余推理的浪费性重复。Ar查看来源专题页Hacker News 已收录 5418 篇文章

时间归档

June 20263012 篇已发布文章

延伸阅读

GPT-5.5 Instant:OpenAI 的成本革命如何重塑企业 AI 经济学2026 年 6 月发布的 GPT-5.5 Instant,重新定义了智能、速度与成本之间的平衡。凭借 40% 的延迟降低和 30% 的价格下调,该模型让前沿 AI 真正适用于实时、高吞吐量的应用场景,标志着行业从参数竞赛转向效率之战的关键Token经济学:AI从订阅制到按量付费如何重塑行业格局AI行业正悄然告别固定月费订阅,转向基于Token的计量计费模式。这一从“丰裕”到“问责”的转变,正在重塑模型架构、开发者行为乃至企业预算——每一次API调用都成为微观经济决策。Token定价正在扼杀AI创新:为什么“按字计费”的计时器正在倒计时当前主流的AI定价模式——每次推理按Token收费——是一场短视的赌博,正危及它试图建立的整个生态系统。AINews认为,对每一次“思考”进行计量,正在扼杀推动突破性应用的探索行为,并促使开发者转向包月或按结果付费的竞争对手。Wattfare颠覆AI经济模式:用户自付API账单,开发者不再承压一家名为Wattfare的初创公司正在彻底改变AI应用的经济逻辑:不再是开发者承担API成本,而是用户自带预算。受创始人一个爆款项目惨遭300美元AI费用压垮的亲身经历启发,这套类似OAuth的支付层机制,有望从根本上改变AI推理费用的支付

常见问题

这次模型发布“The Hidden Cost of AI Agents: Who Pays When Machines Talk to Machines?”的核心内容是什么?

The AI agent ecosystem is experiencing a quiet economic crisis, rooted in the exponential growth of token costs from recursive calls. When a single user request triggers a chain of…

从“how to reduce AI agent API costs”看,这个模型发布为什么重要?

The core problem lies in the architecture of modern AI agent systems. Unlike a simple chatbot that processes a single query and returns a response, an agentic workflow decomposes a user's request into multiple sub-tasks…

围绕“best pricing model for multi-agent systems”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。