KIVI:2比特KV缓存黑科技,改写长上下文LLM的经济规则

GitHub May 2026
⭐ 390
来源:GitHub归档:May 2026
KIVI,一种无需微调的非对称2比特KV缓存量化方法,可将内存消耗降低高达4倍,且无需任何模型重训练。这项突破有望让长上下文LLM推理在消费级GPU上成为现实,重塑AI部署的经济格局。

KIVI,在ICML 2024上亮相,直击长期困扰长上下文LLM推理的内存墙问题。KV缓存——一种随序列长度线性增长的关键值存储——在单次128K token的对话中就能消耗数GB的GPU内存。KIVI采用非对称、混合精度策略,将每个元素压缩至仅2比特:它按通道量化键(保留异常维度),按token量化值(捕捉每个token的方差)。结果是,在MMLU和GSM8K等基准测试中,内存减少4倍,精度损失微乎其微。关键在于,KIVI无需微调或校准数据——它是现有推理引擎的即插即用模块。GitHub上的开源仓库已吸引超过390颗星,显示出强烈的社区兴趣。

技术深度解析

KIVI的核心创新在于其非对称量化策略,打破了LLM.int8()或SmoothQuant等先前工作中使用的对称、统一方法。KV缓存由每个注意力层的键(K)和值(V)组成。对于具有32K token上下文的7B参数模型,标准的16位浮点存储可能超过16 GB——比整个模型权重还大。KIVI将其减少到每个元素2比特,但对键和值采用不同的方式。

键量化(按通道): KIVI沿通道维度量化键(即每个隐藏维度有自己的缩放因子和零点)。这至关重要,因为键向量通常包含幅度比其他维度大10–100倍的异常通道——这一现象最早在“涌现特征”文献中记载。通过为每个通道分配专用的量化范围,KIVI保留了这些异常值,它们对注意力分数的准确性至关重要。量化是均匀的,但带有按通道的缩放因子,以FP16元数据存储(开销可忽略不计)。

值量化(按token): 值按token量化,意味着每个token的整个值向量共享一个缩放因子和零点。这种设计选择反映了值分布在不同token之间的变化比在不同通道之间更大的观察结果。按token量化捕捉了每个token的动态范围(例如,代表稀有实体的token与常见停用词的token),而无需按通道元数据的开销。

非对称比特分配: 键使用2比特,值使用2比特,但量化网格不同。键使用对称网格(以零为中心),因为键激活在LayerNorm后大致是零均值的;值使用非对称网格(带有学习的零点),因为值分布通常是有偏的。这种非对称性比对称的2比特量化带来了额外的1–2%精度提升。

无需调优: 与QLoRA或GPTQ等方法不同,KIVI不需要校准数据或微调。它直接从缓存张量本身实时计算量化参数。这使其成为真正的“即插即用”解决方案——任何使用Hugging Face Transformers库的模型都可以通过用KIVI的量化器包装注意力模块来加速。

基准性能: 论文报告了在Llama 2 7B、13B和70B以及Mistral 7B上的结果。在2比特量化下,WikiText-2上的困惑度增加不到0.5点,MMLU准确率下降不到1%。

| 模型 | 上下文长度 | KV缓存内存 (FP16) | KV缓存内存 (KIVI 2-bit) | 内存节省 | 困惑度 (WikiText-2) | MMLU准确率 |
|---|---|---|---|---|---|---|
| Llama 2 7B | 32K | 16.4 GB | 4.1 GB | 4.0× | 5.47 (基线 5.44) | 45.3% (基线 45.9%) |
| Llama 2 13B | 32K | 32.8 GB | 8.2 GB | 4.0× | 4.88 (基线 4.85) | 54.8% (基线 55.1%) |
| Mistral 7B | 32K | 16.4 GB | 4.1 GB | 4.0× | 5.25 (基线 5.22) | 62.5% (基线 62.9%) |

数据要点: 4倍内存压缩带来的精度损失在统计上不显著(MMLU上<0.5%)。这使得KIVI成为第一个无需重训练即可实用的2比特KV缓存量化器,直接实现了在24 GB GPU(例如RTX 3090)上对7B模型进行32K上下文推理。

工程实现: KIVI的GitHub仓库提供了一个CUDA内核,将量化与注意力计算融合在一起。它采用两遍方法:首先计算按通道/按token的缩放因子,然后量化并以紧凑的2比特格式存储。反量化在注意力softmax期间实时完成。该内核达到了理论内存带宽的85%,使其延迟高效。截至今天,该仓库已有390颗星,并且正在积极开发以支持FlashAttention集成。

关键参与者与案例研究

KIVI由浙江大学和微软亚洲研究院的研究人员开发。第一作者张继元在高效Transformer推理方面有良好记录,包括先前关于稀疏注意力的工作。该论文被ICML 2024接收,标志着强有力的同行验证。

竞品方案: KIVI进入了一个KV缓存压缩方法的拥挤领域,每种方法都有不同的权衡。

| 方法 | 比特宽度 | 是否需要调优 | 准确率 (MMLU Δ) | 内存节省 | 吞吐量提升 |
|---|---|---|---|---|---|
| KIVI | 2-bit (非对称) | 否 | -0.6% | 4.0× | 1.8× |
| KVQuant | 2-bit (对称) | 否 | -1.2% | 4.0× | 1.6× |
| FlexGen | 4-bit | 是 (校准) | -0.3% | 2.0× | 1.3× |
| SpAtten | 16-bit (稀疏) | 否 | -0.5% | 2.5× | 1.5× |
| StreamingLLM | 16-bit (窗口) | 否 | -2.0% (长上下文) | 1.5× | 1.2× |

数据要点: KIVI在无需调优的方法中实现了最佳的内存节省(4倍),精度损失与KVQuant相当,但退化程度减半。FlexGen提供了稍好的精度,但需要校准数据,使其在动态部署中不太实用。

案例研究:EdgeL

更多来自 GitHub

Obscura:为AI代理与网页抓取重写规则的无头浏览器Obscura,一款从头为AI代理和网页抓取构建的无头浏览器,已席卷开发者社区。其GitHub仓库h4ckf0r0day/obscura在一天内飙升至超过9,777颗星,表明市场对这款声称能解决现有方案性能与复杂性瓶颈的工具抱有极大兴趣。与Flow2API:一个可能颠覆AI服务经济的地下API池Flow2api是一个逆向工程工具,它创建了一个经过管理的用户账户池,以提供对Banana Pro API服务的无限制、负载均衡的访问。通过自动化账户轮换、令牌刷新和请求分发,它有效地绕过了单个账户的速率限制和使用上限。该项目迅速爆红,单日Radicle Contracts:以太坊Gas费如何威胁去中心化Git的未来Radicle Contracts是一次大胆的尝试,旨在将Git的不可篡改性与以太坊的可编程性融合。其智能合约层负责项目注册、贡献者身份认证和代币化治理,将Git仓库转化为链上资产。核心创新在于将Git仓库元数据与以太坊地址绑定,实现无需中查看来源专题页GitHub 已收录 1518 篇文章

时间归档

May 2026409 篇已发布文章

延伸阅读

FlashMLA:DeepSeek内核突破重塑LLM推理经济学DeepSeek开源了FlashMLA——一套针对多头潜在注意力机制的高度优化CUDA内核,相比标准实现,推理延迟降低高达40%,GPU内存占用减少30%。该项目上线首日即获12,586颗GitHub星标,标志着大语言模型迈向实时、高吞吐应Obscura:为AI代理与网页抓取重写规则的无头浏览器一款名为Obscura的全新开源无头浏览器在GitHub上一日狂揽近万星,以其轻量架构和原生AI代理支持引发轰动。专为网页抓取与动态内容捕获设计,它旨在通过极致效率与开发者体验,挑战Puppeteer和Playwright等老牌玩家。Flow2API:一个可能颠覆AI服务经济的地下API池GitHub上一个名为flow2api的新项目正掀起波澜——它通过一套精密的逆向工程账户池,提供无限制的Banana Pro API访问。负载均衡、自动刷新、缓存机制一应俱全,号称能极大提升自动化效率。但代价是什么?Radicle Contracts:以太坊Gas费如何威胁去中心化Git的未来Radicle Contracts将去中心化Git锚定在以太坊上,通过链上身份绑定仓库元数据,实现无需信任的协作。然而,仅66个GitHub星标和以太坊持续高企的Gas费,让这套基础设施能否突破小众开发者圈层成为疑问。AINews深入调查。

常见问题

GitHub 热点“KIVI: The 2-Bit KV Cache Hack That Rewrites Long-Context LLM Economics”主要讲了什么?

KIVI, presented at ICML 2024, tackles the memory wall that has long plagued long-context LLM inference. The KV cache—a key-value store that grows linearly with sequence length—can…

这个 GitHub 项目在“KIVI vs KVQuant 2-bit comparison”上为什么会引发关注?

KIVI's core innovation lies in its asymmetric quantization strategy, which breaks from the symmetric, uniform approaches used in prior work like LLM.int8() or SmoothQuant. The KV cache consists of keys (K) and values (V)…

从“KIVI llama.cpp integration tutorial”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 390,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。