Argus 将 Claude Code 代币用量削减 80%：AI 智能体学会“先思考再花钱”

AINews 独家发掘了 Argus，这是一个专为 Anthropic 的 Claude Code 设计的开源优化层。它直击 AI 智能体工作流中一个长期存在的效率痛点：在批处理、数据清洗和代码重构中，上下文加载与冗余推理的浪费性重复。Argus 引入了一种“观察-优化”循环，能够结构化地缓存中间推理结果，并在后续运行中仅执行差异部分。其结果是代币消耗大幅降低 80%，直接转化为更低的 API 成本和更快的执行速度。这并非简单的缓存技巧，而是一种范式转变——从“每次从头推理”转向“基于记忆的增量推理”，正如人类工程师复用经验一样。对于中小型企业而言，这意味着 AI 驱动的自动化终于变得经济可行。

技术深度解析

Argus 作为 Claude Code 与 Anthropic API 之间的中间件层运行，拦截每一个请求-响应周期。其核心创新在于一个结构化推理缓存，它不仅存储原始输出，还存储 Claude 在任务执行过程中生成的内部思维链状态、中间变量赋值以及决策点。在后续运行类似工作流时——例如批量格式化 CSV 文件或跨多个代码模块应用重构模式——Argus 使用一种语义指纹算法将新的输入上下文与缓存条目进行比较。该算法根据任务描述、输入模式以及数据子集生成一个哈希值，然后在缓存中查找匹配项。当匹配度超过可配置的相似度阈值（默认 85%）时，Argus 会检索缓存的中间推理结果，并跳过该部分的冗余代币生成。随后，该工具仅执行差异执行路径：即工作流中与缓存版本不同的部分，例如新的数据值或略有不同的代码结构。这一切通过一个轻量级的基于 Rust 的运行时实现，该运行时将缓存管理在本地内存中，或可选地使用 Redis 进行分布式部署。缓存淘汰策略采用最近最少使用（LRU）算法，默认大小为 500 MB，用户可自行配置。

从工程角度来看，Argus 解决的关键难题是 LLM 推理的无状态性。标准 API 调用将每个请求视为独立事件，迫使模型在任务几乎相同时重新读取上下文并重新推导结论。Argus 在不修改 Claude Code 本身的情况下引入了一个有状态层，采用一种进程注入技术，钩入 API 客户端库。该开源仓库托管在 GitHub 上，名为 `argus-ai/argus`，在发布后的两周内已获得超过 4,200 颗星和 380 个分支。仓库中包含一套详细的基准测试套件，展示了在三种常见工作流中的代币节省情况：

| 工作流类型 | 基线代币（每次运行） | 使用 Argus（每次运行） | 节省比例 | 缓存命中率 |
|---|---|---|---|---|
| CSV 批量标准化（100 个文件） | 1,250,000 | 210,000 | 83.2% | 91% |
| 代码 linting 与格式化（50 个文件） | 890,000 | 178,000 | 80.0% | 88% |
| 数据去重（10,000 条记录） | 3,400,000 | 680,000 | 80.0% | 85% |

数据要点： 缓存命中率与代币节省直接相关，节省最高的场景出现在结构高度重复的工作流中。CSV 批量标准化示例表明，当输入模式和转换逻辑在文件间完全一致时，Argus 可以复用超过 90% 的推理过程，仅需重新生成数据特定的计算部分。

关键参与者与案例研究

Argus 由一支前 Anthropic 和前 Google 研究人员组成的小团队开发，由曾任职于 Google Brain 从事高效推理研究的 Dr. Elena Voss 领导。该团队未接受风险投资，而是以 MIT 许可证开源发布该工具。该领域的主要竞争对手是 CacheFlow，这是一款来自初创公司 Incept AI 的专有中间件，为 OpenAI 的 GPT-4 提供类似缓存功能，但不支持 Claude Code，并且按每个缓存的代币收取许可费。另一个间接竞争对手是 LangChain 的缓存模块，它缓存整个 LLM 响应，但不处理中间推理或差异执行，因此节省效果低得多（对于相同提示通常仅为 20-30%）。

一个值得关注的早期采用者是 DataForge，一家中型数据工程公司，每天为电商客户处理超过 50 万条记录。其 CTO 报告称，在将 Argus 集成到基于 Claude Code 的数据清洗管道后，月度 API 成本降低了 78%，从每月 12,000 美元降至 2,640 美元。另一个案例是 RefactorLabs，一家代码现代化服务公司，使用 Claude Code 重构遗留 Java 代码库。他们集成了 Argus，在批量重构作业中看到代币使用量减少了 72%，每个代码库的平均作业完成时间从 45 分钟缩短至 12 分钟。

| 解决方案 | 支持的模型 | 缓存类型 | 典型节省 | 定价 |
|---|---|---|---|---|
| Argus（开源） | 仅 Claude Code | 中间推理 + 差异执行 | 70-83% | 免费（MIT） |
| CacheFlow（专有） | GPT-4, GPT-4o | 完整响应 + 部分差异 | 40-60% | 每缓存代币 $0.001 |
| LangChain 缓存 | 任何 LLM | 仅完整响应 | 20-30% | 免费（开源） |

数据要点： Argus 提供了最高的节省效果，并且是唯一专门针对 Claude Code 的解决方案，但其开源性质意味着没有企业级支持。CacheFlow 提供更广泛的模型支持，但成本可能抵消高频用户节省的费用。LangChain 的缓存对于复杂工作流来说过于简单。

行业影响与市场动态

Argus 的出现标志着 AI 智能体经济性的一次转折。随着企业从实验性部署转向生产级自动化，API 成本已成为规模化采用的主要障碍。通过将代币消耗削减 80%，Argus 使 Claude Code 驱动的自动化对于中小型企业也变得经济可行。这可能会加速 AI 智能体在数据工程、代码重构和批量处理等领域的普及。然而，Argus 对 Claude Code 的专一依赖也带来了风险：如果 Anthropic 改变其 API 行为或定价模式，Argus 的有效性可能会受到影响。此外，缓存命中率高度依赖于工作流的重复性；对于高度动态或全新的任务，节省效果将微乎其微。尽管如此，Argus 代表了 AI 基础设施领域一个令人兴奋的方向：与其让模型更便宜，不如让它们更智能地使用现有资源。

时间归档

延伸阅读

常见问题

GitHub 热点“Argus Cuts Claude Code Token Use by 80%: AI Agents Learn to Think Before They Spend”主要讲了什么？

AINews has uncovered Argus, an open-source optimization layer designed exclusively for Anthropic's Claude Code. It tackles a persistent inefficiency in AI agent workflows: the wast…

这个 GitHub 项目在“Argus Claude Code token optimization open source”上为什么会引发关注？

Argus operates as a middleware layer between Claude Code and the Anthropic API, intercepting every request-response cycle. Its core innovation is a structured reasoning cache that stores not just raw outputs, but the int…

从“Argus vs CacheFlow comparison”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 0，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。