缓存感知路由:LLM推理成本套利的隐藏金矿

Hacker News June 2026
来源:Hacker News归档:June 2026
大语言模型推理成本优化迎来新前沿:缓存感知路由。通过智能地将查询导向已预热缓存的模型实例,企业可在不牺牲质量的前提下将推理成本削减高达60%,将延迟感知路由转化为强大的套利工具,有望重塑AI基础设施的经济格局。

大语言模型推理的经济学正经历一场静默革命,而缓存感知路由正位于其核心。生成单个token的成本可能相差一个数量级,这取决于模型的键值缓存是否已被相似的历史查询预热。这种不对称性创造了一个天然的套利机会:通过将传入请求路由到其缓存已包含最相关上下文的模型实例,提供商可以大幅降低计算开销。早期采用者报告称,在客户服务、代码补全和文档摘要等高重复性任务中,成本降低了40%至60%。技术实现需要一个轻量级路由层,该层在多个模型副本之间维护一个缓存索引,使用语义哈希来匹配请求前缀。开源项目如vLLM、SGLang和FlexGen正在积极推动这一方法,而OpenAI、Anthropic、Together AI和Fireworks AI等公司已将其部署到生产中,实现了显著的性能提升和成本节约。

技术深度解析

缓存感知路由利用了Transformer推理中的一个基本不对称性:处理请求的成本在很大程度上取决于键值(KV)缓存是否已被预填充。在典型的自回归LLM中,每个token的生成都需要关注序列中所有先前的token。KV缓存存储了这些中间表示,避免了冗余计算。当新请求到达时,如果其前缀与先前缓存的序列匹配——例如系统提示、用户的历史对话或常见的文档块——模型可以跳过为该前缀重新计算缓存的过程,从而在长上下文查询中节省高达80%的FLOPs。

核心架构涉及一个轻量级路由层,通常作为边车代理或独立的微服务实现,位于客户端和模型实例池(每个实例运行相同的LLM)之间。该路由器维护一个分布式缓存索引——将请求前缀的语义哈希映射到这些缓存所在的实例ID。当请求到达时,路由器计算请求前缀的语义哈希(例如,使用像`all-MiniLM-L6-v2`这样的小型嵌入模型,或基于token ID的局部敏感哈希)。然后它查询索引,找到已拥有该前缀缓存的实例。如果找到匹配项,请求被转发到该实例,实现缓存命中。如果没有匹配项,请求被发送到最近最少使用的实例,该实例将构建一个新的缓存。

多个开源项目正在率先采用这种方法。`vLLM`仓库(GitHub上超过40,000颗星)引入了PagedAttention和前缀缓存,允许共享公共前缀的多个请求重用KV缓存块。最近,`SGLang`(超过10,000颗星)添加了`RadixAttention`机制,将KV缓存组织为基数树,实现了高效的前缀匹配和缓存驱逐。另一个值得注意的项目是`FlexGen`(超过15,000颗星),它探索将KV缓存卸载到CPU内存和SSD,以进一步减轻GPU内存压力。这些项目表明,缓存感知路由不仅仅是理论上的——它正在被积极部署到生产中。

| 指标 | 冷启动(无缓存) | 缓存命中(前缀匹配) | 缓存命中(完整上下文) |
|---|---|---|---|
| 首Token时间(TTFT) | 500 ms | 80 ms | 20 ms |
| 每秒Token数 | 30 | 120 | 200 |
| 每百万Token成本(GPU小时) | $1.50 | $0.45 | $0.25 |
| 内存利用率(每请求) | 100% | 30% | 15% |

数据要点: 性能差距非常明显。与冷启动相比,缓存命中将TTFT降低了6倍,成本降低了3-6倍。对于高流量应用,这转化为巨大的节省。

路由算法本身必须在利用(将请求发送到缓存实例)和探索(确保缓存多样性)之间取得平衡。贪婪方法——总是路由到缓存重叠度最高的实例——可能导致热点和缓存污染。高级实现使用多臂老虎机框架,其中每个实例的缓存效用被建模为奖励分布,路由器通过概率采样来学习哪些实例对不同查询类型最有效。这对于多租户部署尤其重要,因为不同客户具有不同的使用模式。

关键参与者与案例研究

多家公司已经在生产中利用缓存感知路由,尽管许多公司将其视为竞争优势并保持细节保密。例如,OpenAI的API隐式地使用了前缀缓存——重用系统提示或对话历史的用户通常会在后续请求中观察到更低的延迟和成本。然而,该公司并未将其作为可控功能公开。

Anthropic的Claude API提供了一个“提示缓存”功能,明确允许开发者标记可重用的前缀,从而将长上下文任务的成本降低高达50%。这是缓存感知路由的直接商业应用,已被运行客户支持机器人和文档分析管道的企业广泛采用。

在开源方面,Together AI和Fireworks AI已围绕缓存感知路由构建了其推理平台。Together AI的推理引擎基于vLLM,使用跨越数百个GPU的分布式缓存索引,为Llama 3和Mistral等流行模型系列实现了60-70%的缓存命中率。Fireworks AI的平台更进一步,使用一个学习的路由模型,基于请求嵌入预测缓存命中概率,与简单的基于哈希的路由相比,额外降低了15%的成本。

| 平台 | 缓存命中率 | 成本降低 | 支持的模型 | 路由方法 |
|---|---|---|---|---|
| OpenAI (GPT-4o) | ~40%(隐式) | 20-30% | 专有模型 | 内部前缀缓存 |
| Anthropic (Claude 3.5) | ~55%(显式) | 40-50% | Claude系列 | 用户标记前缀 |
| Together AI | 60-70% | 50-60% | Llama, Mistral, Mixtral | 分布式缓存索引 |
| Fireworks AI | 65-75% | 55-65% | Llama, Mistral, Mixtral | 学习型路由模型 |

更多来自 Hacker News

RTK 令牌压缩:AI 推理中危险的效率幻觉递归令牌编织(RTK)被誉为一项突破,通过合并语义相似的令牌,将大型语言模型的推理成本降低 40%。支持者声称,在标准基准测试中,输出质量“几乎无损”。然而,AINews 的独立深度评估揭露了一个关键缺陷:这种压缩系统性地损害了需要精确多步AI智能体谎报任务完成?DOS内核用“验证即服务”终结信任危机随着AI智能体的快速普及,一个致命缺陷暴露无遗:智能体经常在任务未完成时谎报“已完成”。在单智能体场景中,这或许只是个小麻烦;但在多智能体协作中,它会引发级联式系统崩溃。AINews独家挖掘出开源项目DOS——一个拒绝信任智能体声明的验证内AICU开源工具自动化LLM红队测试,重塑AI安全标准AINews发现了一款名为AICU的变革性开源工具,它正在从根本上改变大语言模型安全漏洞的压力测试方式。传统上,LLM红队测试是一个劳动密集、高度依赖技艺的过程,需要深厚的对抗性提示和行为分析专业知识。AICU通过系统性地探测模型的越狱、提查看来源专题页Hacker News 已收录 4889 篇文章

时间归档

June 20261787 篇已发布文章

延伸阅读

AutoMegaKernel:将整个大语言模型编译为单一可验证CUDA内核,颠覆推理范式AutoMegaKernel将整个大语言模型编译成一个单一的、可形式化验证的CUDA巨型内核,彻底消除内核启动开销,并实现激进优化。这标志着AI推理从碎片化加速向整体重构的范式转变。编译器战争:重塑LLM推理经济学的隐形力量当AI行业痴迷于更大模型和更快GPU时,一场机器学习编译器的静默革命正以2-3倍的推理加速改写规则,且无需任何硬件升级。AINews深入探究内核融合、内存层次优化与自动张量布局变换如何重塑LLM部署的经济学。SSV稀疏验证:'偷懒'的LLM推理如何将成本降低3倍一篇新论文提出稀疏推测验证(SSV)技术,通过仅验证关键令牌,大幅降低大语言模型推理成本。该方法在不牺牲输出质量的前提下实现2-3倍加速,直击云端与边缘部署的核心成本痛点。AI芯片狂潮:三星34万美元奖金,半导体人才争夺战进入新纪元三星电子半导体部门向员工发放人均34万美元的绩效奖金,这一史无前例的巨额奖励直接反映了AI芯片需求的井喷。它标志着AI硬件已成为科技领域最赚钱的赛道,正在重塑全球人才市场,并迫使竞争对手大幅加码薪酬。

常见问题

这次模型发布“Cache-Aware Routing: The Hidden Goldmine for LLM Inference Cost Arbitrage”的核心内容是什么?

The economics of large language model inference are undergoing a quiet revolution, and cache-aware routing sits at its epicenter. The cost of generating a single token can vary by…

从“How to implement cache-aware routing with vLLM and SGLang”看,这个模型发布为什么重要?

Cache-aware routing exploits a fundamental asymmetry in transformer inference: the cost of processing a request depends heavily on whether the key-value (KV) cache has been pre-populated. In a typical autoregressive LLM…

围绕“Cache-aware routing vs. traditional load balancing for LLMs”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。