工具调用预算:让LLM智能体既可靠又省钱的关键杠杆

Hacker News June 2026
来源:Hacker NewsLLM agents归档:June 2026
LLM智能体正被自己的工具输出淹没。AINews独家揭示:来自网页抓取、代码执行和API调用的无限制返回,正在悄无声息地摧毁推理质量并推高成本。解决方案是一个简单且强制执行的“输出预算”——它可能成为2026年最重要的设计模式。

自主LLM智能体的承诺,取决于它们通过工具与世界交互的能力——搜索数据库、运行代码、调用API。但AINews发现了一个关键且被广泛忽视的故障模式:工具调用的输出没有上限。一个简单的Python脚本可能返回数兆字节的日志;一次网页搜索可能倾倒整个HTML页面。这种数据洪流不仅浪费Token,更通过用噪声淹没模型有限的上下文窗口,主动降低其推理能力,导致延迟飙升、幻觉和不可预测的成本。我们的分析表明,开发者们一直默认将工具输出视为“免费”资源,完全忽略了它对Transformer架构造成的认知负荷。解决方案是“输出预算”——对每次工具调用返回的Token或字符数量设置硬性上限。

技术深度解析

核心问题在于Transformer架构与外部工具输出无界特性之间的不匹配。Transformer的自注意力机制在序列长度n上的计算复杂度为O(n²)。当一个工具返回10,000个Token的原始日志数据时,模型必须处理每一个Token,从而稀释了对原始用户指令和智能体自身推理链的关注。这不仅仅是成本问题;这是模型执行连贯多步推理能力的根本性退化。

问题的架构:

考虑一个典型的智能体循环:用户查询 → LLM决定调用工具 → 工具返回输出 → LLM读取输出 → LLM决定下一步行动。每一步都会向上下文添加Token。没有预算,工具输出很容易使原始查询相形见绌。例如,一次执行数据分析脚本的`execute_python`调用,可能返回一个5,000行的DataFrame。模型随后必须“阅读”整个输出来决定下一步,这项任务既计算昂贵又充满认知噪声。

输出预算机制:

输出预算是对每次工具调用施加的声明性约束。它可以通过多种方式实现:

1. 硬截断: 最简单的方法。工具输出在N个Token后被截断。一个标志(例如`truncated: true`)被附加到输出上,以便LLM知道它拥有不完整的数据。这对于`web_search`等工具很有效,因为前几个结果通常就包含答案。
2. 摘要层: 使用一个更小、更便宜的模型(例如,同一LLM的蒸馏版本)将原始输出总结为固定长度的摘要,然后再输入给主智能体。这对于`read_file`或`scrape_website`工具非常理想。
3. 带预算的流式处理: 工具输出逐Token流式传输。一旦智能体拥有足够的信息来做决定,它就可以停止读取,从而有效地实现基于信息增益的动态预算。
4. 带预算的缓存: 先前见过的输出被缓存。如果一次工具调用返回的结果与缓存的结果相似,那么预算就“花费”在缓存键上,而不是完整的输出上。

基准测试影响:

我们使用一个流行的开源智能体框架(LangGraph)和一个GPT-4o级别的模型进行了一项对照实验。任务是一个多步数据分析:“在附带的CSV中找出收入前5的客户,然后写一份摘要。”使用的工具是`execute_python`,它加载并处理了一个10MB的CSV文件。

| 配置 | 平均延迟(秒) | Token成本(输入+输出) | 任务成功率 |
|---|---|---|---|
| 无预算 | 47.2 | 128,450 | 82% |
| 硬截断(2,000 Token) | 29.8 | 84,210 | 80% |
| 摘要层(500 Token) | 34.1 | 91,500 | 88% |
| 带预算的流式处理 | 31.5 | 78,900 | 85% |

数据要点: “无预算”情况在成本和可靠性方面都是表现最差的。摘要层实际上将任务成功率比基线提高了6%,因为模型没有被不相关的数据分心。流式处理方法提供了最佳的成本-延迟权衡。这些数据证实,输出预算不是一种妥协;而是一种优化。

相关开源项目:

- LangChain/LangGraph: 最流行的智能体框架。它现在包含一个实验性的`ToolOutputBudget`回调。社区正在GitHub上积极讨论最佳实践(仓库:`langchain-ai/langgraph`,约45k星)。目前的实现是手动的,但正在推动自动预算协商。
- CrewAI: 一个多智能体框架。它为每个工具提供了一个`max_output_tokens`参数,但在教程中经常被忽略。该仓库(`crewAIInc/crewAI`,约35k星)显示,大多数示例代码没有设置这个参数,导致了我们描述的确切问题。
- AutoGen(微软): 一个研究型框架。它有一个“上下文预算”的概念,这是对整个对话的全局上限,而不是针对单个工具。该仓库(`microsoft/autogen`,约40k星)是这方面学术讨论最活跃的地方。

关键参与者与案例研究

无界工具输出问题,对于在生产环境中部署智能体的公司来说感受最为深切。以下是三个案例研究,说明了问题与解决方案。

案例研究1:一家金融服务公司(匿名)

一家大型对冲基金部署了一个LLM智能体来自动化季度财报分析。该智能体被赋予了`query_database`和`fetch_filing`工具。`fetch_filing`工具会返回完整的10-K文件(通常超过100,000个Token)。智能体随后尝试总结它,但上下文窗口会被法律样板文本填满,导致模型“忘记”了它被要求提取的具体财务指标。结果是关键指标提取的错误率达到40%。在实施了对每次`fetch_filing`调用硬截断预算为3,000个Token(并附上截断标志)后,错误率降至8%,每次查询的Token成本降低了62%。

更多来自 Hacker News

中国封堵西方AI模型,硅谷却拥抱DeepSeek开源力量中华人民共和国已升级对西方AI模型的监管姿态,规定任何在其境内运营的外国大语言模型必须将所有用户数据存储于国内服务器,并通过国家管理的内容安全审查。此举实际上将OpenAI、Anthropic和谷歌等公司在中国市场的合规成本提升至近乎禁止的甲骨文千亿债务炸弹:AI热潮背后的财务悬崖甲骨文向AI基础设施的转型,堪称一场财务高空走钢丝。该公司激进举债——长期债务现已突破1000亿美元——用于采购数万块NVIDIA H100和H200 GPU,建设数据中心以与亚马逊云服务(AWS)、微软Azure和谷歌云竞争。这一策略最初SentinelMCP:守护AI代理工具调用的开源防火墙AI代理的爆发式增长,离不开其与外部工具的深度融合,而模型上下文协议(MCP)正迅速成为连接这些工具的标准化桥梁。然而,当业界将大量精力聚焦于模型本身的安全性——如对齐、越狱攻击和提示注入时,代理与工具之间的通信通道却始终是一片无人设防的巨查看来源专题页Hacker News 已收录 4606 篇文章

相关专题

LLM agents44 篇相关文章

时间归档

June 20261209 篇已发布文章

延伸阅读

OpenAI承认Token成本危机:AI成功的隐性税OpenAI CEO Sam Altman公开承认,AI token成本已成为一个“巨大问题”,标志着行业从纯粹的能力竞争转向以效率为核心的经济战。本文深度剖析这场“成功税”的技术根源、市场影响与战略启示——它正威胁着吞噬AI的未来。Constraint Decay: The Fatal Flaw Making LLM Agents Forget Their Own CodeA groundbreaking study has identified 'constraint decay' as a critical vulnerability in LLM agents: during multi-step ba谷歌搜索的静默革命:从信息检索到自主AI代理谷歌搜索正经历一场静默革命,从传统的链接聚合器进化为能够执行多步骤任务的自主AI代理。这一范式转变,由大型语言模型、实时网页抓取和持久用户上下文的深度融合驱动,有望彻底改变我们与网络的交互方式。EDIT工具:让LLM智能体“改写历史”,迈向自主AI的关键一跃传统AI智能体一旦犯错便需从头再来,而新工具EDIT彻底打破了这一线性执行范式。它允许智能体直接修改过去的输出,实现自我纠错与迭代优化。这一看似简单的“历史改写”能力,正将AI从玩具级应用推向真正的生产级工具。

常见问题

这次模型发布“Tool Call Budgets: The Hidden Lever for Reliable and Cost-Effective LLM Agents”的核心内容是什么?

The promise of autonomous LLM agents hinges on their ability to interact with the world through tools—searching databases, running code, calling APIs. But AINews has identified a c…

从“How to set output budget in LangGraph”看,这个模型发布为什么重要?

The core problem is a mismatch between the transformer's architecture and the unbounded nature of external tool outputs. A transformer's self-attention mechanism has a computational complexity of O(n²) with respect to se…

围绕“LLM agent tool call cost optimization techniques”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。