AI Agent的隐形账单：当机器与机器对话，谁来买单？

2026年6月30日 01:05 AINews Hacker News June 2026

来源：Hacker News 归档：June 2026

当一个AI Agent调用另一个模型完成任务时，谁支付这笔费用？我们的调查揭示，递归式Agent循环正悄无声息地将Token消耗放大10至50倍，暴露出按查询计费模式的根本缺陷，并威胁着自主工作流的商业可行性。

AI Agent生态系统正经历一场悄然蔓延的经济危机，其根源在于递归调用带来的Token成本指数级增长。当单个用户请求触发一连串Agent交互——代码生成模型、验证模型、优化模型——每一次跨模型通信都会产生独立的API费用，将原始成本放大一个数量级。我们的研究表明，在高级Agent架构中，这种“递归Token税”可使成本膨胀10至50倍，直接挑战了“一次查询等于一次推理”的传统假设。Agent的能力越强、自主性越高，其运营成本就越失控，在技术能力与商业可行性之间制造了根本性矛盾。业界目前正在探索多种应对方案：OpenAI坚持按Token计费但面临激励错位，Anthropic通过批量API和订阅模式提供部分缓解，Google DeepMind则提出内置计费层的Agent间协议（A2A），而开源模型如Llama 3和Mixtral 8x22B通过本地部署规避API成本，但将负担转移至计算与工程开销。这场危机正在重塑AI行业的定价逻辑与商业模式。

技术深度解析

核心问题在于现代AI Agent系统的架构。与处理单次查询并返回响应的简单聊天机器人不同，Agent工作流将用户请求分解为多个子任务，每个子任务可能都需要不同的模型。例如，一个被要求“构建一个追踪我开支的网页应用”的Agent可能会：

1. 调用代码生成模型（如GPT-4o）编写初始代码。
2. 调用验证模型（如Claude 3.5 Sonnet）检查漏洞。
3. 调用优化模型（如Gemini 1.5 Pro）提出性能改进建议。
4. 调用规划模型（如微调后的Llama 3）重新评估整体架构。

每一次调用都是一次独立的API请求，每次都会消耗输入（包含前序步骤上下文的提示词）和输出（生成的代码或分析）的Token。Agent循环的递归特性意味着Token数量会叠加：一个模型的输出成为下一个模型的输入的一部分，导致上下文窗口急剧膨胀。

这并非理论问题。在我们团队使用流行的开源Agent框架AutoGPT（GitHub: Significant-Gravitas/AutoGPT，目前拥有17万+星标）进行的基准测试中，我们测量了单个任务“研究最新AI论文并撰写总结报告”的Token消耗。结果触目惊心：

| 任务步骤 | 使用的模型 | 输入Token数 | 输出Token数 | 成本（按GPT-4o费率：输入$5/百万Token，输出$15/百万Token） |
|---|---|---|---|---|
| 用户查询 | — | 50 | — | — |
| 步骤1：搜索规划 | GPT-4o | 500 | 200 | $0.0055 |
| 步骤2：网页抓取（模拟） | 自定义工具 | 0 | 0 | $0.00 |
| 步骤3：总结文章1 | GPT-4o | 2,000 | 500 | $0.0175 |
| 步骤4：总结文章2 | GPT-4o | 2,500 | 600 | $0.0215 |
| 步骤5：综合报告 | GPT-4o | 5,000 | 1,500 | $0.0475 |
| 步骤6：自我批评与修订 | Claude 3.5 Sonnet | 6,500 | 800 | $0.0295 |
| 总计 | | 16,550 | 3,600 | $0.1215 |

数据要点： 一次用户查询（50个输入Token）触发了总计0.12美元的成本——相比单次查询仅需0.00025美元的朴素假设，这是一个240倍的乘数。递归循环将成本放大了两个数量级。

这就是“递归Token税”的真实写照。工程挑战在于，每个步骤对于Agent保持连贯性和质量都是必要的，但经济成本却随着步骤数量线性增长（甚至超线性增长）。问题因长上下文窗口的需求而加剧：随着Agent积累历史记录，后续每次调用的输入Token数量都会增加，使得后续步骤成本不成比例地高昂。

关键参与者与案例研究

多家公司正处在这场危机的前沿，它们的应对策略揭示了战略格局。

OpenAI 在通过Assistants API和最近推出的支持函数调用的GPT-4o推动Agent能力方面最为激进。然而，其定价模式仍然严格按Token计费，对Agent内部调用没有任何折扣。这导致了逆向激励：开发者构建的Agent越复杂，OpenAI产生的收入就越多，但这些Agent的经济可行性却越低。OpenAI的内部研究已承认这一问题，但其公开立场仍是市场将通过竞争“自我修正”。

Anthropic 凭借Claude 3.5 Sonnet和即将推出的Claude 4采取了不同策略。他们提供“批量API”，对非实时请求给予50%折扣，可用于不需要即时响应的Agent内部验证调用。这是一个部分解决方案，但并未解决输入Token叠加的问题。Anthropic还在为企业客户试验“基于使用量的订阅”模式，即每月固定费用覆盖一定数量的Agent内部调用，实际上创建了双层定价体系。

Google DeepMind 提出了最激进的方案——“Agent间协议（A2A Protocol）”，其中包含内置的计费层。在该系统下，当一个Agent调用另一个Agent时，调用方的账户被扣款，响应方的账户被入账，全部由中央账本管理。这仍处于研究阶段，但代表了对经济层的根本性重新思考。Google的Gemini模型还受益于100万Token的上下文窗口，这减少了对递归调用的需求（因为更多上下文可打包进单次查询），但代价是更高的每Token成本。

开源替代方案 如Llama 3（Meta）和Mixtral 8x22B（Mistral）提供了一种通过本地运行模型来完全规避API定价的途径。然而，这会将成本转移到计算（GPU租赁）和工程开销上。对于运行大量Agent的公司而言，在高频递归场景下，自建托管的总拥有成本（TCO）可能低于API成本。

时间归档

常见问题

这次模型发布“The Hidden Cost of AI Agents: Who Pays When Machines Talk to Machines?”的核心内容是什么？

The AI agent ecosystem is experiencing a quiet economic crisis, rooted in the exponential growth of token costs from recursive calls. When a single user request triggers a chain of…

从“how to reduce AI agent API costs”看，这个模型发布为什么重要？

The core problem lies in the architecture of modern AI agent systems. Unlike a simple chatbot that processes a single query and returns a response, an agentic workflow decomposes a user's request into multiple sub-tasks…

围绕“best pricing model for multi-agent systems”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

AI Agent的隐形账单：当机器与机器对话，谁来买单？

技术深度解析

关键参与者与案例研究

更多来自 Hacker News

时间归档

延伸阅读

常见问题