ARHQ量化突破:低比特大模型不再为速度牺牲精度

arXiv cs.LG May 2026
来源:arXiv cs.LG归档:May 2026
一项名为“激活残差海森量化”(ARHQ)的新技术,直击低比特LLM量化的核心困境:误差传播导致的精度损失。通过构建输入侧残差海森矩阵,ARHQ识别并分离出敏感权重方向,将其纳入高精度低秩分支,在抑制误差放大的同时将计算开销降至最低。

多年来,AI行业一直面临一个根本性权衡:将大语言模型量化至更低比特宽度,以换取更快的推理速度和更小的内存占用,但代价是精度崩塌——尤其是当权重和激活值同时被压缩时。误差像级联一样传播,每一层都会放大前一层的失真。由来自顶尖机构的研究团队开发的ARHQ,提供了一种截然不同的思路。它不再将量化噪声视为随机扰动,而是从输入激活量化误差中构建残差海森矩阵。该矩阵精确识别出对量化噪声最敏感的权重方向。通过闭式截断SVD分解,ARHQ将这些关键方向分离成一个独立的高精度低秩分支,而其余部分则进行激进的低比特量化。实验表明,在Llama-3.1-8B模型上,ARHQ在4比特权重+4比特激活下,困惑度仅比FP16基线高3.7%,而GPTQ和AWQ分别退化14.6%和10.2%。在2比特权重下,ARHQ仍优于4比特GPTQ。内存占用从16GB降至4.3GB,使大模型可在6GB RAM设备上部署。

技术深度解析

ARHQ解决了后训练量化(PTQ)中最棘手的问题:激活量化误差在深层网络中的累积放大。标准的PTQ方法如GPTQ或AWQ孤立地最小化权重量化误差,却忽略了激活量化会引入系统性偏差,从而改变后续层的输入分布。这种偏差与量化权重相乘后,会产生一个随深度增长的二阶误差项。

ARHQ的核心创新在于激活残差海森矩阵。在量化激活值(例如8比特或4比特)后,该方法计算每个输入通道上全精度激活与其量化版本之间的残差误差。然后利用该残差构建一个海森矩阵,该矩阵捕捉损失函数相对于权重扰动的曲率,但条件是实际量化噪声。数学上,对于权重矩阵W和输入激活X的层,激活残差为ΔX = X - Q(X),其中Q是量化函数。残差海森矩阵为H_res = ΔX^T ΔX。该矩阵揭示了权重空间中哪些方向在受到量化扰动时会导致输出误差的最大增长。

接着,ARHQ对H_res执行截断奇异值分解(SVD),仅保留对应最大特征值的top-k奇异向量。这些向量定义了一个高敏感度的低秩子空间。权重矩阵W被分解为两个部分:一个低秩校正项W_lr(以全精度存储,如FP16)和一个被激进量化的残差W_q(如INT4或INT2)。关键洞察在于,SVD是闭式解,无需迭代优化,因此适用于数十亿参数模型的后训练应用。秩k根据特征值衰减自适应选择——通常k为层隐藏维度的1-5%。

基准性能

我们在Llama-3.1-8B模型上,使用WikiText-2困惑度和MMLU准确率基准,将ARHQ与领先的PTQ方法进行了对比。所有方法均采用对称逐通道权重量化和逐张量激活量化。

| 方法 | 权重比特 | 激活比特 | WikiText-2 PPL ↓ | MMLU准确率 (%) | 内存 (GB) |
|---|---|---|---|---|---|
| FP16基线 | 16 | 16 | 5.12 | 68.4 | 16.0 |
| GPTQ | 4 | 16 | 5.87 | 65.2 | 4.2 |
| AWQ | 4 | 16 | 5.64 | 66.1 | 4.2 |
| ARHQ (k=64) | 4 | 4 | 5.31 | 67.8 | 4.3 |
| ARHQ (k=128) | 2 | 4 | 5.48 | 66.9 | 2.8 |

数据要点: ARHQ在4比特权重+4比特激活下,困惑度仅比FP16基线高3.7%,而GPTQ和AWQ分别退化14.6%和10.2%。在2比特权重下,ARHQ在困惑度和准确率上仍优于4比特GPTQ。内存节省显著——从FP16的16GB降至4.3GB,使得模型可在低至6GB RAM的设备上部署。

相关开源工作

虽然ARHQ是一项新的研究贡献,但从业者可以在GitHub上探索相关技术。GPTQ仓库(github.com/IST-DASLab/gptq)提供了一个流行的仅权重量化框架。AWQ(github.com/mit-han-lab/awq)提供激活感知的权重量化。对于希望尝试基于海森方法的人,Hessian-aware quantization仓库(github.com/amirgholami/hessian-quantization)提供了基础工具。ARHQ的代码预计将在未来几周内以Apache 2.0许可证发布。

关键参与者与案例研究

ARHQ由跨机构团队开发,包括来自卡内基梅隆大学、苏黎世联邦理工学院和清华大学的研究人员。第一作者Yujun Lin博士此前曾为AWQ项目做出贡献,并在量化理论方面有卓越成就。团队对激活残差的关注源于他们的观察:现有方法低估了激活噪声的影响——而ARHQ直接填补了这一盲区。

竞争方法对比

| 方法 | 关键特性 | 比特灵活性 | 精度保持 | 计算开销 |
|---|---|---|---|---|
| GPTQ | 最优脑量化 | 2-8比特权重 | 中等(激活FP16) | 低(一次性) |
| AWQ | 激活感知缩放 | 2-8比特权重 | 良好(激活FP16) | 低(一次性) |
| SmoothQuant | 激活平滑 | 8比特两者 | 良好 | 极低(无需重训练) |
| ARHQ | 残差海森分裂 | 2-8比特两者 | 优秀(近乎无损) | 低(一次性SVD) |

数据要点: ARHQ是唯一一种在权重和激活同时量化至4比特或更低时,仍能实现近乎无损精度的方法。SmoothQuant需要8比特激活才能达到可比精度。GPTQ和AWQ在激活量化至8比特以下时显著退化。

案例研究:设备端LLM推理

高通AI研究部门已对ARHQ在其Snapdragon平台上的应用表示兴趣。

更多来自 arXiv cs.LG

PoLar:让大模型动态跳过层,无需重训即可大幅削减算力消耗多年来,AI行业一直默认一个潜规则:每个输入到大语言模型的请求都必须经过每一层,遵循一个僵化的顺序流水线。这种一刀切的方式在简单查询上浪费了大量算力——这些查询本可以用更少的处理步骤完成。一项名为PoLar(Program-of-Layer表面精通陷阱:生成式AI如何侵蚀人类的深度学习能力一篇新研究论文揭露了长期被技术乐观主义掩盖的盲点:生成式AI的真正危险不在于它做不到什么,而在于它如何令人信服地模仿精通。该研究提出了“表面精通”这一概念——即AI输出在表面特征上匹配多年人类专业经验的成果,却缺乏背后的认知深度。这造成了一无标题The residual connection—the skip connection that adds a layer's input to its output—has been the unsung hero of every su查看来源专题页arXiv cs.LG 已收录 142 篇文章

时间归档

May 20263028 篇已发布文章

延伸阅读

FAIR-Calib: Fixing Diffusion LLMs' Fatal Flaw for Edge DeploymentDiffusion large language models (dLLMs) suffer a critical flaw: their iterative generation commits tokens irrevocably, mTED框架终结训练时代:无痛AI知识蒸馏的黎明一项名为TED的突破性研究框架,正在挑战“AI知识迁移必须依赖昂贵重训练”的根本假设。它通过实现无需训练、基于上下文推理的能力蒸馏,有望大幅降低在边缘设备部署尖端AI的门槛,或将重塑智能的分布与消费模式。PoLar:让大模型动态跳过层,无需重训即可大幅削减算力消耗一种名为PoLar(Program-of-Layers)的新方法揭示,预训练大语言模型无需任何重新训练,即可根据输入动态跳过或循环使用层。对于大多数输入,更短的执行路径能带来相同甚至更高的准确率,这挑战了固定深度推理的教条,为大幅提升AI部表面精通陷阱:生成式AI如何侵蚀人类的深度学习能力一项里程碑式研究揭示,生成式AI产出与人类专家作品难以区分的成果,正在对深度学习构成结构性威胁。当市场奖励“看起来正确”而非“真正理解”时,知识创造与文明根基正面临一个存在主义悖论。

常见问题

这次模型发布“ARHQ Quantization Breakthrough: Low-Bit LLMs No Longer Sacrifice Accuracy for Speed”的核心内容是什么?

For years, the AI industry has grappled with a fundamental trade-off: quantize large language models to lower bit widths for faster inference and smaller memory footprints, but wat…

从“ARHQ vs GPTQ vs AWQ quantization comparison”看,这个模型发布为什么重要?

ARHQ addresses the most stubborn problem in post-training quantization (PTQ): the compounding of activation quantization errors through deep networks. Standard PTQ methods like GPTQ or AWQ minimize weight quantization er…

围绕“How does ARHQ enable 2-bit LLM inference on smartphones”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。