KV缓存压缩:每词元69KB如何开启AI无处不在的时代

Hacker News March 2026
来源:Hacker News归档:March 2026
大语言模型架构领域正悄然发生一场革命,正在瓦解其广泛部署的主要障碍。通过对存储对话记忆的关键机制——键值缓存进行根本性重构,研究人员成功将每个词元的内存占用降低了4-5倍。这一突破使得具备深度连贯记忆的AI,得以从昂贵的云端服务器直接走向个人设备。

长期以来,大语言模型对更长上下文窗口的追求遭遇了根本性瓶颈:键值缓存呈线性且不可持续的内存增长。在传统架构中,处理对话或文档中的每个词元都需要存储相应的键向量和值向量,消耗约300KB内存。这种线性扩展意味着,一个128K词元的上下文可能仅VRAM就需要近40GB,将此类能力禁锢在最昂贵的硬件上。

新兴的解决方案并非渐进式优化,而是对LLM如何‘记忆’的根本性反思。一系列技术正汇聚成流:动态稀疏注意力仅激活缓存中最相关的部分;选择性状态保留则丢弃冗余或低影响信息;还有混合记忆系统等。这些方法共同挑战了‘所有历史词元都必须被完整存储’的传统假设。

其影响是深远的。内存占用的急剧下降,使得在消费级GPU上运行具有长上下文能力的模型成为可能,为AI助手、实时翻译、代码补全等应用打开了新天地。这标志着从‘云端专属’AI向‘边缘普及’AI的关键转折,技术民主化的进程因此加速。行业领导者预测,到2025年,大多数新部署的LLM都将采用某种形式的KV缓存压缩,这将成为推理基础设施的新标准。

技术深度解析

键值缓存是基于Transformer架构的大语言模型的工作记忆。在自回归生成过程中,模型会为每一层和每一个词元计算一个键向量(用于注意力匹配)和一个值向量(待检索的内容)。在会话中存储所有先前词元的这些向量,是模型维持上下文能力的关键。传统且朴素的方法是采用密集的线性缓存:`内存占用 ≈ 2 * 层数 * 隐藏维度 * 上下文长度 * 每参数字节数`。

以Llama 3 70B这样的模型为例(80层,隐藏维度8192,FP16精度),每个词元的内存成本大约是:`2 * 80 * 8192 * 2 字节 = ~2.62 MB`。通过激进的层共享以及vLLM等框架的优化,实践中这一成本已降至每个词元约300KB。新一轮的研究正从多个角度同时发起攻击:

1. 动态稀疏注意力与StreamingLLM: 受开创性论文“StreamingLLM”的启发,该方法发现注意力分数具有极端稀疏性。只有一小部分词元(最近的词元以及初始序列中的关键‘注意力汇聚点’词元)对于维持生成质量至关重要。诸如H2O注意力Scissorhands等技术能够实时动态修剪KV缓存,每层只保留最具影响力的前k个键值对。
2. 选择性状态保留(混合记忆): 这借鉴了人类记忆系统。模型不再使用统一的缓存,而是采用多层记忆。一个容量小、速度快、高精度的缓存保存即时上下文,而一个容量更大、经过压缩、访问较慢的缓存则存储早期片段的摘要表征。像MemGPT GitHub仓库(超过1.5万星标)这样的项目就在探索这种类智能体架构,由LLM自身决定保留、总结或丢弃哪些内容。
3. 激进量化与共享表征: 超越标准的FP16,研究人员正在将INT8、INT4甚至二值量化方案专门应用于KV缓存。由于缓存用于检索而非精确计算,它能容忍更高的压缩率。此外,在相邻词元间共享键或对值进行低秩近似等技术,也大幅减少了存储的唯一信息量。

综合效果是惊人的。近期对Together AI RedPajama推理栈启用这些优化的基准测试显示,在长上下文检索任务上保持原始模型98%以上准确率的同时,每个词元的持续内存成本降至约69KB。

| 优化技术 | 机制 | 预估内存减少 | 主要权衡 |
|---|---|---|---|
| 密集基线(vLLM) | 完整保留KV | 0%(基线 ~300KB/词元) | 无(参考基准) |
| 动态稀疏(H2O) | 每层保留top-k键/值 | 60-80% | 在密集推理任务上准确率略有下降 |
| 选择性保留 | 分层记忆,LLM控制的摘要 | 70-90% | 内存管理逻辑带来的延迟增加 |
| INT4 KV量化 | 缓存值采用4位精度 | 75% | 检索值可能存在噪声 |
| 组合方案 | 联合应用以上所有技术 | ~77%(降至 ~69KB/词元) | 复合工程复杂度 |

数据启示: 上表揭示,没有单一技术是万灵药;每一项都引入了权衡。通往~69KB的道路在于精心平衡的组合方案,主要是以牺牲完美回忆为代价,换取巨大的效率提升——对于绝大多数现实世界的流式应用而言,这是一个可以接受的权衡。

关键参与者与案例研究

解决KV缓存问题的竞赛,由雄心勃勃的初创公司、调整其服务的云服务巨头以及基础学术研究共同引领。

* Together AI 一直是生产就绪推理优化领域的领跑者。其开源的RedPajama-InferenceTogether API 突出展示了一个持续优化的KV缓存管理层。他们将此问题不仅视为研究,更是客户成本的直接解决方案,声称其技术能将长上下文推理的成本降低70%以上。
* Anyscale (Ray LLM) 正利用其分布式计算的传统优势,解决跨集群的KV缓存可扩展性问题。他们的方法侧重于在CPU和GPU内存之间高效分片和交换缓存,从而为在有限硬件上运行的模型有效创建更大的虚拟上下文窗口。
* 学术先锋: 加州大学伯克利分校的Sky Computing实验室 完成了开创性的StreamingLLM工作。斯坦福大学的CRFM麻省理工学院的HAN实验室发表了专门针对缓存的高级量化和稀疏注意力方法的研究。研究员Tri Dao(FlashAttention的合著者)目前正专注于FlashAttention-3的开发,其中包含对更高效KV缓存格式的原生支持。
* 开源催化剂: vLLM项目通过其创新的PagedAttention技术,已经成为高效KV缓存管理的行业事实标准,为数以千计的生产部署提供了动力。其持续的演进,例如对量化缓存和选择性保留的实验性支持,正在推动整个生态系统向前发展。

这些努力共同指向一个未来:长上下文LLM推理将变得像今天运行一个7B参数模型一样普遍和经济。KV缓存压缩不仅仅是一项优化,它是解锁AI真正无处不在应用的关键使能技术。

更多来自 Hacker News

NLNet Labs向AI宣战:开源代码禁止用于大模型训练NLNet Labs近日更新了其开源软件的许可条款,明确禁止将包括广泛部署的Unbound和NSD在内的代码用于大语言模型的训练或推理,除非获得商业授权。这一举措的影响远超DNS社区,直接挑战了AI行业长期默认的“公开代码可自由使用”的假设LLM让硬件设计像说话一样简单:M5Stack革命来袭一个突破性的开源项目已经问世,它证明大语言模型现在能够将日常语言转化为M5Stack生态系统的完整硬件设计。工程师不再需要记忆引脚定义、I2C地址和电源需求,用户只需描述他们想要什么——比如“一个测量温湿度并显示在屏幕上的设备”——LLM就OpenClaw Launch 发布:30秒部署AI Agent,零DevOps,重新定义交付速度本周发布的 OpenClaw Launch 是一个托管运行时,它将运行自主AI Agent所需的整个DevOps栈——包括扩缩容、安全、更新和监控——封装在单次点击背后。用户只需定义Agent的逻辑,即可在30秒内获得一个可直接投入生产的端查看来源专题页Hacker News 已收录 5300 篇文章

时间归档

March 20262347 篇已发布文章

延伸阅读

DualPath架构突破AI智能体推理的存储带宽瓶颈全新架构DualPath打破了限制AI智能体推理的存储带宽“铁幕”。通过将键值缓存存储与计算路径分离,它实现了8倍吞吐量提升和5倍延迟降低,为自主智能体解锁了实时、长上下文的推理能力。Llama.cpp:悄然改写本地AI推理规则的C/C++引擎Llama.cpp正在悄然改写本地AI推理的规则。这款开源C/C++引擎让开发者能在消费级CPU、边缘设备乃至智能手机上运行大型语言模型,挑战GPU主导的行业现状,推动AI访问的民主化。本地LLM速度革命:毫秒级推理如何终结云端依赖一场静默的革命正在重写本地AI推理的规则。通过重新架构内存管理与推理管线,开发者已在消费级GPU上实现接近实时的响应速度。这一突破将本地大语言模型从新奇玩物转变为实用、保护隐私的云端AI替代方案。提示缓存:AI部署中LLM成本控制的隐秘战场随着企业大规模部署大语言模型,Token成本正在悄然飙升。提示缓存技术通过复用跨查询的公共前缀来消除冗余计算,正成为关键的成本杠杆,可将Token消耗削减30%-70%并降低延迟。本文深入剖析这项技术、其商业影响,以及它为何可能重塑AI部署

常见问题

这次模型发布“KV Cache Compression: How 69KB Per Token Unlocks the Era of Ubiquitous AI”的核心内容是什么?

The relentless pursuit of longer context windows in large language models has hit a fundamental wall: the linear, unsustainable memory growth of the Key-Value cache. For every toke…

从“KV cache vs model parameters difference”看,这个模型发布为什么重要?

The Key-Value cache is the working memory of a transformer-based LLM. During autoregressive generation, for each layer and each token, the model computes a key vector (used for matching in attention) and a value vector (…

围绕“how to implement sparse KV cache Hugging Face”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。