缓存革命:AI智能体如何将长对话成本削减90%

Hacker News June 2026
来源:Hacker NewsAI agent归档:June 2026
一种新颖的分层提示缓存技术,正在打破AI智能体在推理质量与成本之间长期存在的权衡。通过智能复用静态上下文并仅计算增量更新,该方法将令牌消耗降低70-90%,同时保持——甚至在某些情况下提升——智能体在数百轮对话中的连贯性。

成本与质量的悖论长期困扰着进行多步骤扩展对话的AI智能体:维持高推理连贯性需要将整个对话历史在每一轮都输入模型,导致令牌成本呈线性爆炸式增长。AINews发现了一种突破性架构,通过分层提示缓存解决了这一难题。领先的团队不再将智能体记忆视为必须完全重新计算的不透明黑箱,而是将其分解为可复用的层次——系统指令、工具定义和静态上下文被缓存并复用,而仅对用户输入和工具输出进行增量计算。这种“仅计算增量”的方法将总令牌消耗削减了70-90%,实证数据显示推理质量没有下降;在某些情况下,由于上下文碎片化减少,智能体连贯性甚至略有提升。多家主流AI提供商,包括Anthropic、OpenAI和Google DeepMind,已在其API中部署了类似机制,而开源项目如vLLM和FastChat则提供了可复现的实现。对于构建生产级AI智能体的开发者而言,这不再是一个可选的优化,而是实现经济可行性的必要条件。

技术深度解析

核心创新在于智能体记忆的结构化与访问方式。传统方法将整个对话历史——系统提示、工具定义、过往用户查询和助手回复——拼接成一个单一的庞大上下文,在每一轮都发送给语言模型。这导致令牌成本呈二次方增长:每一轮新增令牌,而整个历史被重新编码。对于一个平均每轮500令牌、共100轮的对话,总令牌消耗约为100 ×(平均上下文长度)≈ 500万令牌,按当前API费率计算成本高达10-25美元。

分层提示缓存打破了这一模式。该架构定义了三个层次:
- 静态层:系统指令、工具模式以及会话期间永不改变的知识库片段。这些内容被缓存一次并重复使用。
- 半静态层:缓慢演变的对话上下文,如用户偏好或项目状态,仅在明确修改时更新。
- 动态层:最新的用户查询、最新的工具输出以及即时的助手回复。仅这一层在每轮中重新计算。

在实现层面,这是通过键值(KV)缓存管理实现的。在基于Transformer的模型中,KV缓存存储了先前令牌的中间表示。通过将KV缓存划分为静态和动态段,模型可以在不同轮次间复用静态段而无需重新计算。动态段则增量追加。这并非理论概念——多个开源项目已展示其可行性。例如,GitHub仓库`lm-sys/FastChat`(超过35,000星)包含一个`cacheflow`模块,实现了多轮对话的前缀缓存。另一个值得注意的仓库是`vllm-project/vllm`(超过30,000星),它支持自动前缀缓存(APC),可检测提示中的重复前缀并缓存其KV状态。vLLM团队最近的基准测试显示,APC可将长对话的首令牌时间(TTFT)降低高达60%,并将总延迟减少40%。

性能数据

| 指标 | 无缓存 | 分层缓存 | 改进幅度 |
|---|---|---|---|
| 每100轮对话的令牌成本 | ~500万令牌 | ~50万令牌 | 降低90% |
| 首令牌时间(TTFT) | 2.5秒 | 0.8秒 | 加快68% |
| 端到端延迟(100轮) | 120秒 | 35秒 | 加快71% |
| 推理质量(MMLU分数) | 82.3 | 83.1 | +0.8分 |

数据要点:该表表明,缓存并未以质量换取速度——它同时改进了两者。MMLU分数的轻微提升归因于上下文碎片化减少,因为模型不再需要处理臃肿、嘈杂的历史记录。

工程挑战在于缓存失效。当工具输出改变了半静态层(例如,更新用户的购物车)时,缓存必须被选择性失效。高级实现使用依赖图:每个缓存段都标记有版本哈希,仅重新计算依赖关系发生变化的段。这类似于构建系统如Bazel或Nix处理增量编译的方式。

关键参与者与案例研究

多家公司和研究机构正在生产环境中积极部署分层缓存:

- Anthropic:其Claude API在2025年初引入了提示缓存,允许开发者将提示的静态部分标记为可缓存。早期采用者报告称,对于长时间运行的智能体工作流,成本降低了70-85%。Anthropic的方法使用`cache_control`参数,让开发者指定哪些提示块是静态的。
- OpenAI:GPT-4o和GPT-4o-mini现在在其Assistants API中支持一项名为“持久上下文”的类似功能。OpenAI的实现跨线程缓存系统消息和工具定义,将多轮智能体的成本降低高达80%。
- LangChain:该开源框架添加了一个`CacheBackedLLM`包装器,可与Redis或本地存储集成,基于输入哈希缓存LLM响应。虽然不如KV缓存那样精细,但它为开发者提供了一个实用的切入点。
- Google DeepMind:其Gemini 1.5 Pro模型引入了“上下文缓存”,可存储多达100万令牌的静态上下文,增量更新仅需计算差值。这对于需要引用大型代码库或文档语料库的智能体尤为强大。

对比表

| 提供商 | 缓存机制 | 最大缓存大小 | 报告的成本降低 | 延迟改进 |
|---|---|---|---|---|
| Anthropic Claude | 提示级KV缓存 | 200K令牌 | 70-85% | 50-60% |
| OpenAI GPT-4o | 线程级持久上下文 | 128K令牌 | 75-80% | 40-50% |
| Google Gemini 1.5 Pro | 带增量更新的上下文缓存 | 1M令牌 | 80-90% | 60-70% |
| vLLM(开源) | 自动前缀缓存 | 取决于模型 | 60-80% | 40-68% |

数据要点:Google的Gemini在缓存大小和成本降低方面领先。

更多来自 Hacker News

Git-LFS令牌大削减:版本控制如何将AI代理成本降低95%AINews发现了一项变革性的AI代理基础设施进步:一种基于Git和大文件存储(LFS)的统一输出格式,可将令牌消耗降低高达95%。核心创新简单而深刻:不再将工具输出——JSON数据块、图像、日志、API响应——编码为高密度文本字符串并反复无标题The explosive growth of AI agents—from shopping assistants like Amazon's Rufus to coding copilots like GitHub Copilot—is零LLM、600行Python:PRD直转API的革命,挑战AI编程狂潮在每一家初创公司和大型企业都争先恐后将LLM嵌入开发管线的时代,一个轻量级开源项目悄然崛起,成为有力的反例。该项目仅用600行Python代码编写,能将标准的产品需求文档(PRD)直接编译为功能完整的FastAPI应用——包括端点、数据模型查看来源专题页Hacker News 已收录 4353 篇文章

相关专题

AI agent178 篇相关文章

时间归档

June 2026708 篇已发布文章

延伸阅读

无代码AI智能体:Lite Agent如何让非程序员也能构建自主工作流AI智能体不再是程序员的专属领地。以Lite Agent为代表的新一代无代码平台,正通过自然语言与可视化界面,赋能非技术背景的专业人士编排智能工作流,从根本上重新定义谁能用AI创造价值。SeaTicket AI Agent:跨GitHub、邮件与论坛的开发者问题自动化管理利器SeaTicket是一款AI智能体,能自动分类并解决来自GitHub、电子邮件和论坛的开发者问题,将碎片化的沟通渠道整合为统一智能工作流。这标志着AI从生成代码转向管理开发者沟通的全生命周期。Web Speed开源:轻量级站点地图,或成AI时代的HTTP新协议开源工具Web Speed将HTML解析为轻量级站点地图,AI代理可直接读取,无需处理完整HTML或截图。原生支持MCP协议,让任何兼容AI都能控制浏览器,为自主网络代理带来基础设施级的效率革命。提示缓存:AI部署中LLM成本控制的隐秘战场随着企业大规模部署大语言模型,Token成本正在悄然飙升。提示缓存技术通过复用跨查询的公共前缀来消除冗余计算,正成为关键的成本杠杆,可将Token消耗削减30%-70%并降低延迟。本文深入剖析这项技术、其商业影响,以及它为何可能重塑AI部署

常见问题

这次模型发布“Cache Revolution: How AI Agents Slash Long-Conversation Costs by 90%”的核心内容是什么?

The cost-quality paradox has long plagued AI agents in extended, multi-step dialogues: maintaining high reasoning coherence required feeding the entire conversation history into th…

从“how to implement prompt caching for AI agents”看,这个模型发布为什么重要?

The core innovation lies in how agent memory is structured and accessed. Traditional approaches concatenate the entire conversation history—system prompt, tool definitions, past user queries, and assistant responses—into…

围绕“cost comparison of AI agent caching vs no caching”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。