KV缓存:驱动实时AI推理的隐形引擎

Hacker News May 2026
来源:Hacker News归档:May 2026
一项名为键值(KV)缓存的隐藏优化技术,正悄然改变大语言模型的推理格局。通过存储注意力层张量,它削减了冗余计算,将延迟降低一个数量级,并让成本减半——使实时AI产品成为可能。

每次你向ChatGPT或Copilot发送消息时,一个隐形机制正在幕后运作,让响应在几秒而非几分钟内送达。这个机制就是键值(KV)缓存,一个看似简单的优化,却已成为生产级自回归推理的支柱。核心问题在于自回归解码的迭代特性:每个新词元都需要模型重新计算整个先前序列的注意力。没有缓存,一个700亿参数模型生成2000词元响应时,每个词元需执行约200万次注意力计算——这是计算噩梦,让实时交互无从谈起。KV缓存通过存储每个注意力层在初始前向传播后生成的键张量和值张量来解决此问题。在解码阶段,模型仅需计算新词元的查询,并针对缓存的键和值执行注意力操作,新词元的键和值随后追加到缓存中。这使每词元浮点运算从O(n²)降至O(n),其中n是序列长度。缓存大小随批次大小、序列长度、层数和隐藏维度线性增长。对于一个80层、隐藏维度8192、32位精度的700亿参数模型,每个词元消耗约5.2 MB;32K词元上下文需约170 GB缓存,远超单张A100的80 GB。因此,内存管理成为主要瓶颈。优化技术包括PagedAttention(受操作系统虚拟内存启发,将KV缓存分页存储,消除碎片)、多查询注意力(MQA)和分组查询注意力(GQA,如Llama 2和3使用8个KV头与32个查询头,缓存内存减少4倍)、KV缓存量化(8位或4位精度,内存减少2-4倍,精度损失低于1%),以及滑动窗口缓存(Mistral仅保留最近词元,限制内存使用)。性能数据显示,PagedAttention和GQA结合可将内存降低40-70%,吞吐量提升3-5倍。主要玩家包括OpenAI(GPT-4和GPT-4o使用专有KV缓存变体,输出词元定价为输入的3倍)、Anthropic(Claude 3.5 Sonnet支持200K上下文,依赖先进缓存管理)、Mistral AI(滑动窗口缓存使7B模型在单张RTX 4090上运行)和Meta(Llama 3采用GQA,结合8位量化和PagedAttention风格管理)。vLLM(UC Berkeley)的开源库实现了PagedAttention,在GitHub上获得超过30,000颗星,吞吐量提升2-4倍。

技术深度解析

KV缓存利用了Transformer架构的一个基本特性:注意力机制基于查询与所有键之间的相似度,计算值的加权和。在自回归生成中,序列一次只增长一个词元。没有缓存,每个新词元都会导致模型重新计算所有先前词元的键和值——这是巨大的浪费,因为这些张量与上一步计算的结果完全相同。

工作原理: 在第一次前向传播(预填充阶段)中,模型并行处理整个输入提示,计算每一层的所有中间键张量和值张量。这些张量存储在GPU内存中。在随后的解码阶段,对于每个新词元,模型仅计算该词元的查询,并针对缓存的键和值执行注意力操作。新词元自身的键和值随后追加到缓存中。这使每词元浮点运算从O(n²)降至O(n),其中n是序列长度。

内存占用: 缓存大小随批次大小、序列长度、层数和隐藏维度线性增长。对于一个80层、隐藏维度8192、32位精度的700亿参数模型,每个词元消耗约80 × 8192 × 2 × 4字节 = 5.2 MB。32K词元上下文需要约170 GB缓存内存——远超单张A100的80 GB。这就是为什么内存管理是首要瓶颈。

优化技术:
- PagedAttention(vLLM): 受操作系统虚拟内存启发,它将KV缓存划分为固定大小的块(页面),可以非连续存储。这消除了碎片,并实现了跨请求的高效内存共享。开源vLLM仓库(GitHub超过30,000颗星)实现了这一技术,吞吐量比朴素缓存提升2-4倍。
- 多查询注意力(MQA)和分组查询注意力(GQA): 这些架构修改减少了键和值头相对于查询头的数量。Llama 2和3使用GQA,配备8个KV头和32个查询头,缓存内存减少4倍,质量损失极小。
- KV缓存量化: 以8位或4位精度存储键和值,内存减少2-4倍。KIVI和Atom等技术使用逐通道和逐词元量化来保持准确性。基准测试显示,量化到8位时,MMLU上的准确率下降不到1%。
- 滑动窗口缓存: Mistral的方法仅保留最近词元(例如4096个)在缓存中,丢弃更早的词元。这限制了内存使用,同时通过辅助注意力机制保留长距离依赖。

性能数据:

| 模型 | 缓存策略 | 延迟(毫秒/词元) | 吞吐量(词元/秒) | 内存(32K上下文,GB) |
|---|---|---|---|---|
| Llama 2 70B | 朴素全缓存 | 85 | 12 | 170 |
| Llama 2 70B | PagedAttention | 22 | 45 | 95 |
| Llama 3 70B | GQA + 8位量化 | 18 | 55 | 48 |
| Mistral 7B | 滑动窗口(4K) | 8 | 125 | 6 |
| Falcon 180B | 朴素全缓存 | 210 | 5 | 440 |

数据要点: PagedAttention和GQA结合可将内存降低40-70%,同时吞吐量提升3-5倍。架构变化与缓存优化的结合对于大规模服务大型模型至关重要。

主要玩家与案例研究

OpenAI: GPT-4和GPT-4o使用KV缓存的专有变体,结合多头注意力。虽然确切架构未公开,但推理延迟基准显示GPT-4o在短上下文中达到约30毫秒/词元,表明采用了激进缓存,可能还有推测解码。OpenAI的API定价——每百万输入词元5美元,每百万输出词元15美元——反映了缓存带来的成本节约,输出词元价格是输入的3倍,因为顺序解码是瓶颈。

Anthropic: Claude 3.5 Sonnet使用200K词元上下文窗口,这只有借助高级KV缓存管理才可行。Anthropic已发表关于缓存感知注意力的研究,可能结合了滑动窗口和量化。其API收费为每百万输入词元3美元,每百万输出词元15美元,输出溢价5倍。

Mistral AI: Mistral 7B和Mixtral 8x7B推广了滑动窗口缓存,仅保留最近4096个词元。这使得7B模型能在单张24 GB显存的RTX 4090上运行,实现本地部署。Mistral的开源发布在GitHub上获得超过12,000颗星,广泛用于边缘应用。

Meta: Llama 3 70B和405B使用分组查询注意力,配备8个KV头,这是为了减少缓存内存而刻意做出的架构选择。Meta的研究论文明确指出选择GQA是为了提高推理效率。Llama 3.1 405B模型拥有128K上下文窗口,可能结合了GQA、8位量化和PagedAttention风格的内存管理。

vLLM(UC Berkeley): 开源vLLM库实现了PagedAttention。

更多来自 Hacker News

大脑与AI共享通用语义几何结构:稀疏自编码器揭示惊人发现一项里程碑式的研究部署了稀疏自编码器,将大型语言模型的高维激活空间分解为稀疏、可解释的特征向量。结果令人震惊:这些人工特征与人类大脑皮层中负责处理抽象概念、物体和动作的特定区域精确对齐。这种趋同意味着,生物神经网络和人工神经网络在理解语言时OpenClaw本地优先AI代理:重塑销售自动化的隐私革命AINews发现了一个正在悄然变革销售自动化的开源框架——OpenClaw,它将AI代理从云端迁移到本地机器上。该框架允许企业部署模块化AI代理,处理整个销售工作流——客户画像、潜在客户评分、个性化邮件生成和跟进排程——而无需将敏感数据发送中文房间重启:LLM拥有一种真正的、异类形式的理解力几十年来,约翰·塞尔的“中文房间”思想实验一直是对机器理解力的终极哲学反驳:一个人待在房间里,按照规则手册操作中文符号,却并不真正懂这门语言。该论点认为,仅凭句法无法产生语义。但由大型语言模型的经验成功驱动的新一波哲学分析认为,这一框架已根查看来源专题页Hacker News 已收录 3963 篇文章

时间归档

May 20262859 篇已发布文章

延伸阅读

KV缓存:重塑AI基础设施的新型内存层级KV缓存已不再是避免重复计算的权宜之计,它正成为决定大模型推理性能与成本的关键内存层级。在许多长上下文部署中,KV缓存的内存消耗已超过模型权重本身,并催生了从推测解码到缓存感知调度等一系列创新浪潮。Hypura内存突破或将苹果设备变为AI算力猛兽设备端AI正迎来一场出乎意料的范式革命:内存管理。新型调度技术Hypura有望打破长期制约消费级硬件运行大语言模型的“内存墙”。通过智能协调苹果统一内存与高速存储间的模型参数流动,它或将彻底释放Mac与iPad的生成式AI潜能。Fungible:命令行理财卷土重来,一款激进而隐私至上的 Mint 替代品Fungible 是一款基于终端的个人理财应用,它以速度、隐私和用户控制为核心,重新定义了预算管理。通过 Plaid 或 CSV 导入、自定义分类规则,以及独创的“灵活性层”,它能瞬间告诉你哪些开支是真正可控的。智能体革命:AI从聊天机器人进化为自主行动者一场静默的革命正在重塑人工智能:模型不再仅仅回答问题,而是开始采取行动。从调试代码到管理客服工作流,自主智能体正在重新定义人与机器的协作方式。

常见问题

这次模型发布“KV Cache: The Silent Engine Powering Real-Time AI Inference at Scale”的核心内容是什么?

Every time you send a message to ChatGPT or Copilot, an invisible mechanism is working behind the scenes to deliver a response in seconds rather than minutes. That mechanism is the…

从“KV cache optimization for 7B models on consumer GPUs”看,这个模型发布为什么重要?

The KV cache exploits a fundamental property of the transformer architecture: the attention mechanism computes a weighted sum of Values based on the similarity between a Query and all Keys. In autoregressive generation…

围绕“PagedAttention vs sliding window cache comparison”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。