KIVI:2比特KV缓存黑科技,改写长上下文LLM的经济规则

GitHub May 2026
⭐ 390
来源:GitHub归档:May 2026
KIVI,一种无需微调的非对称2比特KV缓存量化方法,可将内存消耗降低高达4倍,且无需任何模型重训练。这项突破有望让长上下文LLM推理在消费级GPU上成为现实,重塑AI部署的经济格局。

KIVI,在ICML 2024上亮相,直击长期困扰长上下文LLM推理的内存墙问题。KV缓存——一种随序列长度线性增长的关键值存储——在单次128K token的对话中就能消耗数GB的GPU内存。KIVI采用非对称、混合精度策略,将每个元素压缩至仅2比特:它按通道量化键(保留异常维度),按token量化值(捕捉每个token的方差)。结果是,在MMLU和GSM8K等基准测试中,内存减少4倍,精度损失微乎其微。关键在于,KIVI无需微调或校准数据——它是现有推理引擎的即插即用模块。GitHub上的开源仓库已吸引超过390颗星,显示出强烈的社区兴趣。

技术深度解析

KIVI的核心创新在于其非对称量化策略,打破了LLM.int8()或SmoothQuant等先前工作中使用的对称、统一方法。KV缓存由每个注意力层的键(K)和值(V)组成。对于具有32K token上下文的7B参数模型,标准的16位浮点存储可能超过16 GB——比整个模型权重还大。KIVI将其减少到每个元素2比特,但对键和值采用不同的方式。

键量化(按通道): KIVI沿通道维度量化键(即每个隐藏维度有自己的缩放因子和零点)。这至关重要,因为键向量通常包含幅度比其他维度大10–100倍的异常通道——这一现象最早在“涌现特征”文献中记载。通过为每个通道分配专用的量化范围,KIVI保留了这些异常值,它们对注意力分数的准确性至关重要。量化是均匀的,但带有按通道的缩放因子,以FP16元数据存储(开销可忽略不计)。

值量化(按token): 值按token量化,意味着每个token的整个值向量共享一个缩放因子和零点。这种设计选择反映了值分布在不同token之间的变化比在不同通道之间更大的观察结果。按token量化捕捉了每个token的动态范围(例如,代表稀有实体的token与常见停用词的token),而无需按通道元数据的开销。

非对称比特分配: 键使用2比特,值使用2比特,但量化网格不同。键使用对称网格(以零为中心),因为键激活在LayerNorm后大致是零均值的;值使用非对称网格(带有学习的零点),因为值分布通常是有偏的。这种非对称性比对称的2比特量化带来了额外的1–2%精度提升。

无需调优: 与QLoRA或GPTQ等方法不同,KIVI不需要校准数据或微调。它直接从缓存张量本身实时计算量化参数。这使其成为真正的“即插即用”解决方案——任何使用Hugging Face Transformers库的模型都可以通过用KIVI的量化器包装注意力模块来加速。

基准性能: 论文报告了在Llama 2 7B、13B和70B以及Mistral 7B上的结果。在2比特量化下,WikiText-2上的困惑度增加不到0.5点,MMLU准确率下降不到1%。

| 模型 | 上下文长度 | KV缓存内存 (FP16) | KV缓存内存 (KIVI 2-bit) | 内存节省 | 困惑度 (WikiText-2) | MMLU准确率 |
|---|---|---|---|---|---|---|
| Llama 2 7B | 32K | 16.4 GB | 4.1 GB | 4.0× | 5.47 (基线 5.44) | 45.3% (基线 45.9%) |
| Llama 2 13B | 32K | 32.8 GB | 8.2 GB | 4.0× | 4.88 (基线 4.85) | 54.8% (基线 55.1%) |
| Mistral 7B | 32K | 16.4 GB | 4.1 GB | 4.0× | 5.25 (基线 5.22) | 62.5% (基线 62.9%) |

数据要点: 4倍内存压缩带来的精度损失在统计上不显著(MMLU上<0.5%)。这使得KIVI成为第一个无需重训练即可实用的2比特KV缓存量化器,直接实现了在24 GB GPU(例如RTX 3090)上对7B模型进行32K上下文推理。

工程实现: KIVI的GitHub仓库提供了一个CUDA内核,将量化与注意力计算融合在一起。它采用两遍方法:首先计算按通道/按token的缩放因子,然后量化并以紧凑的2比特格式存储。反量化在注意力softmax期间实时完成。该内核达到了理论内存带宽的85%,使其延迟高效。截至今天,该仓库已有390颗星,并且正在积极开发以支持FlashAttention集成。

关键参与者与案例研究

KIVI由浙江大学和微软亚洲研究院的研究人员开发。第一作者张继元在高效Transformer推理方面有良好记录,包括先前关于稀疏注意力的工作。该论文被ICML 2024接收,标志着强有力的同行验证。

竞品方案: KIVI进入了一个KV缓存压缩方法的拥挤领域,每种方法都有不同的权衡。

| 方法 | 比特宽度 | 是否需要调优 | 准确率 (MMLU Δ) | 内存节省 | 吞吐量提升 |
|---|---|---|---|---|---|
| KIVI | 2-bit (非对称) | 否 | -0.6% | 4.0× | 1.8× |
| KVQuant | 2-bit (对称) | 否 | -1.2% | 4.0× | 1.6× |
| FlexGen | 4-bit | 是 (校准) | -0.3% | 2.0× | 1.3× |
| SpAtten | 16-bit (稀疏) | 否 | -0.5% | 2.5× | 1.5× |
| StreamingLLM | 16-bit (窗口) | 否 | -2.0% (长上下文) | 1.5× | 1.2× |

数据要点: KIVI在无需调优的方法中实现了最佳的内存节省(4倍),精度损失与KVQuant相当,但退化程度减半。FlexGen提供了稍好的精度,但需要校准数据,使其在动态部署中不太实用。

案例研究:EdgeL

更多来自 GitHub

KiloCode:开源编程代理狂揽200万用户、处理25万亿Token,登顶OpenRouter榜首KiloCode已迅速崛起为AI编程助手领域的统治级力量,定位为一站式智能工程平台。该平台拥有超过200万注册用户(被称为“Kilo程序员”),累计处理超25万亿Token,GitHub星数达20,948颗,日均增长836星。其宣称在Ope无标题MiMo Code, released by Xiaomi under the moniker 'model-agent co-evolution,' is an open-source platform that integrates aFunASR:阿里达摩院170倍实时语音工具包,重塑企业级语音AI格局FunASR由阿里达摩院开发,并非又一款语音识别库,而是一个全栈、生产就绪的工具包,旨在弥合研究与工业部署之间的鸿沟。该项目在GitHub上迅速走红,已获超18,200颗星,日增570星,开发者兴趣浓厚。其核心亮点——170倍实时因子(RT查看来源专题页GitHub 已收录 2724 篇文章

时间归档

May 20263028 篇已发布文章

延伸阅读

LMCache:重新定义LLM推理速度的KV缓存层LMCache是一个开源的KV缓存层,通过消除自回归解码中的内存带宽瓶颈,大幅提升LLM推理性能。它实现了高达5倍的首Token延迟加速和2倍的吞吐量提升,有望成为生产级LLM部署的颠覆性工具。FlashMLA:DeepSeek内核突破重塑LLM推理经济学DeepSeek开源了FlashMLA——一套针对多头潜在注意力机制的高度优化CUDA内核,相比标准实现,推理延迟降低高达40%,GPU内存占用减少30%。该项目上线首日即获12,586颗GitHub星标,标志着大语言模型迈向实时、高吞吐应KiloCode:开源编程代理狂揽200万用户、处理25万亿Token,登顶OpenRouter榜首开源编程代理KiloCode用户数突破200万,累计处理超25万亿Token,在OpenRouter编程代理榜单上高居第一。本文深度拆解其技术架构、竞争格局,以及AI工程化平台正在发生的范式转移。MiMo Code: Xiaomi's Open-Source Bid to Redefine AI Coding with Agentic WorkflowsXiaomi has open-sourced MiMo Code, a platform that tightly couples large language models with autonomous code agents for

常见问题

GitHub 热点“KIVI: The 2-Bit KV Cache Hack That Rewrites Long-Context LLM Economics”主要讲了什么?

KIVI, presented at ICML 2024, tackles the memory wall that has long plagued long-context LLM inference. The KV cache—a key-value store that grows linearly with sequence length—can…

这个 GitHub 项目在“KIVI vs KVQuant 2-bit comparison”上为什么会引发关注?

KIVI's core innovation lies in its asymmetric quantization strategy, which breaks from the symmetric, uniform approaches used in prior work like LLM.int8() or SmoothQuant. The KV cache consists of keys (K) and values (V)…

从“KIVI llama.cpp integration tutorial”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 390,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。