Argus 将 Claude Code 代币用量削减 80%:AI 智能体学会“先思考再花钱”

Hacker News June 2026
来源:Hacker NewsClaude Code归档:June 2026
一款名为 Argus 的全新开源工具正在重新定义 AI 智能体的经济性,通过将重复性 Claude Code 工作流中的代币浪费最高削减 80%。它通过缓存中间推理并仅执行差异步骤,彻底改变了智能体处理重复任务的方式。

AINews 独家发掘了 Argus,这是一个专为 Anthropic 的 Claude Code 设计的开源优化层。它直击 AI 智能体工作流中一个长期存在的效率痛点:在批处理、数据清洗和代码重构中,上下文加载与冗余推理的浪费性重复。Argus 引入了一种“观察-优化”循环,能够结构化地缓存中间推理结果,并在后续运行中仅执行差异部分。其结果是代币消耗大幅降低 80%,直接转化为更低的 API 成本和更快的执行速度。这并非简单的缓存技巧,而是一种范式转变——从“每次从头推理”转向“基于记忆的增量推理”,正如人类工程师复用经验一样。对于中小型企业而言,这意味着 AI 驱动的自动化终于变得经济可行。

技术深度解析

Argus 作为 Claude Code 与 Anthropic API 之间的中间件层运行,拦截每一个请求-响应周期。其核心创新在于一个结构化推理缓存,它不仅存储原始输出,还存储 Claude 在任务执行过程中生成的内部思维链状态、中间变量赋值以及决策点。在后续运行类似工作流时——例如批量格式化 CSV 文件或跨多个代码模块应用重构模式——Argus 使用一种语义指纹算法将新的输入上下文与缓存条目进行比较。该算法根据任务描述、输入模式以及数据子集生成一个哈希值,然后在缓存中查找匹配项。当匹配度超过可配置的相似度阈值(默认 85%)时,Argus 会检索缓存的中间推理结果,并跳过该部分的冗余代币生成。随后,该工具仅执行差异执行路径:即工作流中与缓存版本不同的部分,例如新的数据值或略有不同的代码结构。这一切通过一个轻量级的基于 Rust 的运行时实现,该运行时将缓存管理在本地内存中,或可选地使用 Redis 进行分布式部署。缓存淘汰策略采用最近最少使用(LRU)算法,默认大小为 500 MB,用户可自行配置。

从工程角度来看,Argus 解决的关键难题是 LLM 推理的无状态性。标准 API 调用将每个请求视为独立事件,迫使模型在任务几乎相同时重新读取上下文并重新推导结论。Argus 在不修改 Claude Code 本身的情况下引入了一个有状态层,采用一种进程注入技术,钩入 API 客户端库。该开源仓库托管在 GitHub 上,名为 `argus-ai/argus`,在发布后的两周内已获得超过 4,200 颗星和 380 个分支。仓库中包含一套详细的基准测试套件,展示了在三种常见工作流中的代币节省情况:

| 工作流类型 | 基线代币(每次运行) | 使用 Argus(每次运行) | 节省比例 | 缓存命中率 |
|---|---|---|---|---|
| CSV 批量标准化(100 个文件) | 1,250,000 | 210,000 | 83.2% | 91% |
| 代码 linting 与格式化(50 个文件) | 890,000 | 178,000 | 80.0% | 88% |
| 数据去重(10,000 条记录) | 3,400,000 | 680,000 | 80.0% | 85% |

数据要点: 缓存命中率与代币节省直接相关,节省最高的场景出现在结构高度重复的工作流中。CSV 批量标准化示例表明,当输入模式和转换逻辑在文件间完全一致时,Argus 可以复用超过 90% 的推理过程,仅需重新生成数据特定的计算部分。

关键参与者与案例研究

Argus 由一支前 Anthropic 和前 Google 研究人员组成的小团队开发,由曾任职于 Google Brain 从事高效推理研究的 Dr. Elena Voss 领导。该团队未接受风险投资,而是以 MIT 许可证开源发布该工具。该领域的主要竞争对手是 CacheFlow,这是一款来自初创公司 Incept AI 的专有中间件,为 OpenAI 的 GPT-4 提供类似缓存功能,但不支持 Claude Code,并且按每个缓存的代币收取许可费。另一个间接竞争对手是 LangChain 的缓存模块,它缓存整个 LLM 响应,但不处理中间推理或差异执行,因此节省效果低得多(对于相同提示通常仅为 20-30%)。

一个值得关注的早期采用者是 DataForge,一家中型数据工程公司,每天为电商客户处理超过 50 万条记录。其 CTO 报告称,在将 Argus 集成到基于 Claude Code 的数据清洗管道后,月度 API 成本降低了 78%,从每月 12,000 美元降至 2,640 美元。另一个案例是 RefactorLabs,一家代码现代化服务公司,使用 Claude Code 重构遗留 Java 代码库。他们集成了 Argus,在批量重构作业中看到代币使用量减少了 72%,每个代码库的平均作业完成时间从 45 分钟缩短至 12 分钟。

| 解决方案 | 支持的模型 | 缓存类型 | 典型节省 | 定价 |
|---|---|---|---|---|
| Argus(开源) | 仅 Claude Code | 中间推理 + 差异执行 | 70-83% | 免费(MIT) |
| CacheFlow(专有) | GPT-4, GPT-4o | 完整响应 + 部分差异 | 40-60% | 每缓存代币 $0.001 |
| LangChain 缓存 | 任何 LLM | 仅完整响应 | 20-30% | 免费(开源) |

数据要点: Argus 提供了最高的节省效果,并且是唯一专门针对 Claude Code 的解决方案,但其开源性质意味着没有企业级支持。CacheFlow 提供更广泛的模型支持,但成本可能抵消高频用户节省的费用。LangChain 的缓存对于复杂工作流来说过于简单。

行业影响与市场动态

Argus 的出现标志着 AI 智能体经济性的一次转折。随着企业从实验性部署转向生产级自动化,API 成本已成为规模化采用的主要障碍。通过将代币消耗削减 80%,Argus 使 Claude Code 驱动的自动化对于中小型企业也变得经济可行。这可能会加速 AI 智能体在数据工程、代码重构和批量处理等领域的普及。然而,Argus 对 Claude Code 的专一依赖也带来了风险:如果 Anthropic 改变其 API 行为或定价模式,Argus 的有效性可能会受到影响。此外,缓存命中率高度依赖于工作流的重复性;对于高度动态或全新的任务,节省效果将微乎其微。尽管如此,Argus 代表了 AI 基础设施领域一个令人兴奋的方向:与其让模型更便宜,不如让它们更智能地使用现有资源。

更多来自 Hacker News

无标题While Silicon Valley giants pour billions into ever-larger models and proprietary ecosystems, a parallel AI ecosystem isAI代理摧毁SEO网站:自动化致命盲点曝光在一场令人震惊的AI能力极限展示中,一位经验丰富的SEO站长将其网站的全部运营控制权交给了一个自主AI代理。该代理被赋予生成内容和优化性能的任务,却系统性地拆解了网站的URL结构,破坏了内部链接层级,并生成了大量低质量页面,导致搜索引擎爬虫AI Agent的隐形账单:当机器与机器对话,谁来买单?AI Agent生态系统正经历一场悄然蔓延的经济危机,其根源在于递归调用带来的Token成本指数级增长。当单个用户请求触发一连串Agent交互——代码生成模型、验证模型、优化模型——每一次跨模型通信都会产生独立的API费用,将原始成本放大一查看来源专题页Hacker News 已收录 5418 篇文章

相关专题

Claude Code237 篇相关文章

时间归档

June 20263012 篇已发布文章

延伸阅读

Cchost 引爆并行AI编程:一台机器,多个Claude智能体协同作战一款名为Cchost的开源工具正在打破AI编程助手的单会话瓶颈。通过在一台机器上运行多个独立的Claude Code实例,它将开发者的工作站转变为并行多智能体编程中心,在代码生成、审查和调试环节实现显著提速。检索治理框架砍掉67% Token成本,AI准确率飙升至97%埃默里大学与IBM联合发布「可验证上下文治理」框架,在数据送入大模型前进行预验证、去重和过滤。结果:事实准确率达97%,Token消耗减少67%,直击企业RAG部署中成本与可靠性的核心矛盾。AI前端工具陷入“比烂”竞赛:速度至上,可靠性崩塌AI前端工具层出不穷,开发者满意度却跌至冰点。一位程序员的直言吐槽——“所有工具都很烂”——揭开了行业深层陷阱:追求速度,牺牲可靠性。真正的突破不会是又一个新工具,而是一个智能编排层,将任务路由给专用模型。Headroom记忆压缩引擎:破解AI智能体规模化困局的关键拼图Headroom推出轻量级中间件,通过智能压缩与优先级排序为AI智能体优化上下文管理,直击有限上下文窗口这一核心瓶颈。它不仅能降低Token消耗与推理成本,更让智能体无需重新训练即可维持连贯的长期记忆,为自主AI智能体的规模化落地提供了全新

常见问题

GitHub 热点“Argus Cuts Claude Code Token Use by 80%: AI Agents Learn to Think Before They Spend”主要讲了什么?

AINews has uncovered Argus, an open-source optimization layer designed exclusively for Anthropic's Claude Code. It tackles a persistent inefficiency in AI agent workflows: the wast…

这个 GitHub 项目在“Argus Claude Code token optimization open source”上为什么会引发关注?

Argus operates as a middleware layer between Claude Code and the Anthropic API, intercepting every request-response cycle. Its core innovation is a structured reasoning cache that stores not just raw outputs, but the int…

从“Argus vs CacheFlow comparison”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 0,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。