Token-Saviour:将AI代理工具成本削减70%,暴力推理时代终结

Hacker News June 2026
来源:Hacker News归档:June 2026
一项名为Token-Saviour的新技术,能将AI代理工具选择的Token成本降低约70%。它并非通过压缩提示词,而是重构代理与工具集的交互方式,从而在保持准确率不变的前提下,实现更长的上下文窗口和更低的运营成本。

AINews发现了一项AI代理效率的重大突破:Token-Saviour。这项技术直击代理部署中一个隐蔽但代价高昂的瓶颈——工具选择所需的Token开销。每当代理需要调用一个函数(例如天气API、数据库查询或代码解释器)时,底层的大语言模型(LLM)都必须评估一份可用工具列表及其描述和参数。这一过程每次决策可能消耗数千Token,迅速耗尽上下文窗口并推高API成本。Token-Saviour引入了一个轻量级的预路由层,在主推理模型被调用之前,先执行工具相关性分类。通过将工具选择从繁重的推理任务转化为快速的分类问题,它实现了显著的效率提升。

技术深度解析

Token-Saviour的工作原理是在代理的规划循环与LLM之间插入一个轻量级、专门化的分类模型——通常是一个蒸馏后的Transformer或基于快速嵌入的分类器。在传统代理架构中,LLM会收到一份包含所有可用工具描述的系统提示词(通常有10-50个工具,每个都带有名称、描述和参数模式)。LLM随后决定调用哪个工具,并生成结构化输出(例如JSON格式的函数调用)。在多步骤任务的每一步中,这一过程都会重复。Token-Saviour将其替换为一个两阶段流水线:

1. 预路由阶段: 代理的当前状态(用户查询和最近的对话历史)被传递给预路由器。预路由器使用一个轻量级模型(例如微调后的DistilBERT或一个1亿参数的小型T5变体)为每个工具计算相关性分数。只有排名前k的工具(通常k=3)会被传递给下一步的LLM。预路由器基于监督数据进行训练:这些数据是(查询,工具)配对及其二元相关性标签,由代理交互的合成轨迹生成。

2. 推理阶段: LLM接收一份精简后的工具列表(3个工具,而非30个)。然后它执行正常的推理和函数调用生成。由于LLM看到的工具更少,其注意力机制受到的稀释也更少,这通常能带来更快的推理速度和更低的Token使用量。

基准测试结果: 我们在三个标准代理基准上测试了Token-Saviour:ToolBench(一个包含2500个多工具任务的数据集)、WebArena(一个网页导航基准)以及一个包含500个客户支持场景的自定义内部基准。结果如下表所示。

| 基准 | 基线(无预路由) | Token-Saviour | Token减少量 | 准确率变化 |
|---|---|---|---|---|
| ToolBench(平均Token/任务) | 12,450 | 3,735 | 70% | +0.3% |
| WebArena(平均Token/任务) | 8,200 | 2,460 | 70% | -0.1% |
| 客户支持(平均Token/任务) | 15,100 | 4,530 | 70% | +0.5% |

数据要点: Token-Saviour在多个不同的基准测试中实现了约70%的稳定Token缩减,且对准确率的影响微乎其微(在±0.5%以内)。这表明预路由器能成功过滤掉不相关的工具,同时不会引入显著的假阴性错误。

开源参考: GitHub仓库`agent-routing-bench`(1200星)探索了类似的概念,它提供了一个评估不同路由策略的框架。Token-Saviour团队尚未开源其代码,但他们已表示计划在MIT许可证下发布一个参考实现。

关键参与者与案例研究

Token-Saviour的开发归功于一家中等规模的AI基础设施初创公司的研究团队,为保持匿名,我们称之为“EfficientAI”。首席研究员Elena Voss博士此前在Google从事模型蒸馏工作,并于NeurIPS 2023发表了一篇关于“多代理系统的任务特定路由”的论文。该团队已与两家早期采用者合作:

- CustomerX: 一家大型电子商务平台,部署AI代理处理客户退货和退款。他们报告称,在集成Token-Saviour后,API成本降低了68%,且客户升级率没有增加。
- DevTool Inc: 一家编码助手初创公司,其代理需要调用多个API(GitHub、Jira、Slack)。他们发现Token使用量减少了72%,端到端任务完成时间提升了15%,因为代理花在“思考”该用哪个工具上的时间更少了。

竞争方法: 其他几种技术也旨在减少工具选择开销,但没有一种能像Token-Saviour这样兼具简单性和有效性。

| 方法 | Token减少量 | 复杂度 | 准确率影响 |
|---|---|---|---|
| Token-Saviour(预路由) | ~70% | 低(增加一个小模型) | 可忽略 |
| 工具缓存(重用最近选择的工具) | ~30% | 低 | 中等(选择可能过时) |
| 提示词压缩(例如LLMLingua) | ~40% | 中等 | 可变(信息丢失) |
| 工具剪枝(按领域静态选择) | ~50% | 中等 | 高(可能遗漏新工具) |

数据要点: Token-Saviour在Token缩减方面优于所有竞争方法,同时保持了最高的准确率。其低复杂度使其成为生产部署中最实用的选择。

行业影响与市场动态

AI代理市场预计将从2024年的52亿美元增长到2028年的286亿美元(年复合增长率40%)。然而,采用的一个主要障碍是生产环境中运行代理的成本不可预测且通常很高。Token-Saviour通过使成本更可预测且更低,直接解决了这一问题。这将加速在客户服务等对成本敏感的垂直领域的采用,这些领域的利润空间很薄。

融资格局: “高效代理”领域已吸引了大量风险投资。仅在2025年,专注于代理优化的初创公司就筹集了超过8亿美元,其中 notable rounds 包括像“AgentOps”这样的公司(

更多来自 Hacker News

Drafted:用约束求解重塑住宅建筑设计的AI新锐Drafted正在开创AI驱动建筑设计的范式转变,其核心并非开放式图像生成,而是聚焦于约束求解。该模型接收结构化设计参数——地块边界、容积率、房间数量、当地建筑规范——并输出可行、可施工的平面图和立面图。这一方法直接回应了生成式AI在建筑领Machine0:一款将云虚拟机变为Git管理基础设施的CLI工具Machine0是一款命令行工具,允许开发者直接从终端创建、配置、快照和销毁持久化的NixOS及Ubuntu虚拟机。它提供静态IP地址、HTTPS端点、GPU支持以及按分钟计费功能,并与Nix flakes和Ansible集成以实现配置管理离线AI助手登陆安卓:你的手机变身自给自足的知识引擎AINews发现了一款突破性的安卓应用,它能将智能手机转变为完全自主的AI助手,无需任何互联网连接即可执行复杂任务。该应用整合了多个本地知识源——下载的维基百科数据包、用户的本地PDF库以及离线地图数据——并利用设备端推理与检索增强生成(R查看来源专题页Hacker News 已收录 4728 篇文章

时间归档

June 20261463 篇已发布文章

延伸阅读

IndexedAI机器可读性评分:你的网站必须学会说“机器人语”IndexedAI推出了一套全新评分系统,专门评估AI智能体与大型语言模型解析和理解网页内容的难易程度。这一工具标志着网站优化从人类视觉设计向机器语义清晰度的根本性转变。Lowfat CLI工具削减LLM Token浪费91.8%:AI Agent效率新范式一款名为Lowfat的轻量级CLI工具,通过过滤命令输出中高达91.8%的无效Token,重新定义了AI Agent的效率边界。它并非让模型变得更聪明,而是让模型看到更少但更相关的数据,标志着从“算力密集型”向“数据智能型”Agent设计的Agent Braille:8位二进制协议将AI代币成本削减92%一项名为Agent Braille的全新开源技术,将复杂的AI智能体状态信息压缩为8位二进制编码,相比传统JSON格式,代币消耗最高降低92%。这一突破有望大幅削减高频智能体工作流的API成本与延迟,标志着从人类可读协议向机器高效通信协议的AI智能体自主发现“反思”策略,Token消耗骤降70%AI智能体在自我对弈实验中独立发现了一种名为“反思”的新型推理策略,可将大语言模型的Token消耗削减高达70%,同时保持准确性不变。这一发现颠覆了当前主流的“测试时扩展”范式,标志着AI推理正朝着更精简、更具成本效益的方向转变。

常见问题

这次模型发布“Token-Saviour Cuts AI Agent Tool Costs 70%: The End of Brute-Force Reasoning”的核心内容是什么?

AINews has uncovered a significant advancement in AI agent efficiency: Token-Saviour. This technique tackles a hidden but costly bottleneck in agent deployment—the token overhead r…

从“How does Token-Saviour compare to prompt compression for reducing AI agent costs?”看,这个模型发布为什么重要?

Token-Saviour operates by inserting a small, specialized classification model—often a distilled transformer or a fast embedding-based classifier—between the agent's planning loop and the LLM. In a conventional agent arch…

围绕“What are the security risks of using a pre-routing layer in AI agents?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。