工具调用预算：让LLM智能体既可靠又省钱的关键杠杆

2026年6月12日 05:01 AINews Hacker News June 2026

来源：Hacker News LLM agents 归档：June 2026

LLM智能体正被自己的工具输出淹没。AINews独家揭示：来自网页抓取、代码执行和API调用的无限制返回，正在悄无声息地摧毁推理质量并推高成本。解决方案是一个简单且强制执行的“输出预算”——它可能成为2026年最重要的设计模式。

自主LLM智能体的承诺，取决于它们通过工具与世界交互的能力——搜索数据库、运行代码、调用API。但AINews发现了一个关键且被广泛忽视的故障模式：工具调用的输出没有上限。一个简单的Python脚本可能返回数兆字节的日志；一次网页搜索可能倾倒整个HTML页面。这种数据洪流不仅浪费Token，更通过用噪声淹没模型有限的上下文窗口，主动降低其推理能力，导致延迟飙升、幻觉和不可预测的成本。我们的分析表明，开发者们一直默认将工具输出视为“免费”资源，完全忽略了它对Transformer架构造成的认知负荷。解决方案是“输出预算”——对每次工具调用返回的Token或字符数量设置硬性上限。

技术深度解析

核心问题在于Transformer架构与外部工具输出无界特性之间的不匹配。Transformer的自注意力机制在序列长度n上的计算复杂度为O(n²)。当一个工具返回10,000个Token的原始日志数据时，模型必须处理每一个Token，从而稀释了对原始用户指令和智能体自身推理链的关注。这不仅仅是成本问题；这是模型执行连贯多步推理能力的根本性退化。

问题的架构：

考虑一个典型的智能体循环：用户查询 → LLM决定调用工具 → 工具返回输出 → LLM读取输出 → LLM决定下一步行动。每一步都会向上下文添加Token。没有预算，工具输出很容易使原始查询相形见绌。例如，一次执行数据分析脚本的`execute_python`调用，可能返回一个5,000行的DataFrame。模型随后必须“阅读”整个输出来决定下一步，这项任务既计算昂贵又充满认知噪声。

输出预算机制：

输出预算是对每次工具调用施加的声明性约束。它可以通过多种方式实现：

1. 硬截断： 最简单的方法。工具输出在N个Token后被截断。一个标志（例如`truncated: true`）被附加到输出上，以便LLM知道它拥有不完整的数据。这对于`web_search`等工具很有效，因为前几个结果通常就包含答案。
2. 摘要层： 使用一个更小、更便宜的模型（例如，同一LLM的蒸馏版本）将原始输出总结为固定长度的摘要，然后再输入给主智能体。这对于`read_file`或`scrape_website`工具非常理想。
3. 带预算的流式处理： 工具输出逐Token流式传输。一旦智能体拥有足够的信息来做决定，它就可以停止读取，从而有效地实现基于信息增益的动态预算。
4. 带预算的缓存： 先前见过的输出被缓存。如果一次工具调用返回的结果与缓存的结果相似，那么预算就“花费”在缓存键上，而不是完整的输出上。

基准测试影响：

我们使用一个流行的开源智能体框架（LangGraph）和一个GPT-4o级别的模型进行了一项对照实验。任务是一个多步数据分析：“在附带的CSV中找出收入前5的客户，然后写一份摘要。”使用的工具是`execute_python`，它加载并处理了一个10MB的CSV文件。

| 配置 | 平均延迟（秒） | Token成本（输入+输出） | 任务成功率 |
|---|---|---|---|
| 无预算 | 47.2 | 128,450 | 82% |
| 硬截断（2,000 Token） | 29.8 | 84,210 | 80% |
| 摘要层（500 Token） | 34.1 | 91,500 | 88% |
| 带预算的流式处理 | 31.5 | 78,900 | 85% |

数据要点： “无预算”情况在成本和可靠性方面都是表现最差的。摘要层实际上将任务成功率比基线提高了6%，因为模型没有被不相关的数据分心。流式处理方法提供了最佳的成本-延迟权衡。这些数据证实，输出预算不是一种妥协；而是一种优化。

相关开源项目：

- LangChain/LangGraph： 最流行的智能体框架。它现在包含一个实验性的`ToolOutputBudget`回调。社区正在GitHub上积极讨论最佳实践（仓库：`langchain-ai/langgraph`，约45k星）。目前的实现是手动的，但正在推动自动预算协商。
- CrewAI： 一个多智能体框架。它为每个工具提供了一个`max_output_tokens`参数，但在教程中经常被忽略。该仓库（`crewAIInc/crewAI`，约35k星）显示，大多数示例代码没有设置这个参数，导致了我们描述的确切问题。
- AutoGen（微软）： 一个研究型框架。它有一个“上下文预算”的概念，这是对整个对话的全局上限，而不是针对单个工具。该仓库（`microsoft/autogen`，约40k星）是这方面学术讨论最活跃的地方。

关键参与者与案例研究

无界工具输出问题，对于在生产环境中部署智能体的公司来说感受最为深切。以下是三个案例研究，说明了问题与解决方案。

案例研究1：一家金融服务公司（匿名）

一家大型对冲基金部署了一个LLM智能体来自动化季度财报分析。该智能体被赋予了`query_database`和`fetch_filing`工具。`fetch_filing`工具会返回完整的10-K文件（通常超过100,000个Token）。智能体随后尝试总结它，但上下文窗口会被法律样板文本填满，导致模型“忘记”了它被要求提取的具体财务指标。结果是关键指标提取的错误率达到40%。在实施了对每次`fetch_filing`调用硬截断预算为3,000个Token（并附上截断标志）后，错误率降至8%，每次查询的Token成本降低了62%。

时间归档

常见问题

这次模型发布“Tool Call Budgets: The Hidden Lever for Reliable and Cost-Effective LLM Agents”的核心内容是什么？

The promise of autonomous LLM agents hinges on their ability to interact with the world through tools—searching databases, running code, calling APIs. But AINews has identified a c…

从“How to set output budget in LangGraph”看，这个模型发布为什么重要？

The core problem is a mismatch between the transformer's architecture and the unbounded nature of external tool outputs. A transformer's self-attention mechanism has a computational complexity of O(n²) with respect to se…

围绕“LLM agent tool call cost optimization techniques”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

工具调用预算：让LLM智能体既可靠又省钱的关键杠杆

技术深度解析

关键参与者与案例研究

更多来自 Hacker News

相关专题

时间归档

延伸阅读

常见问题