ARHQ量化突破：低比特大模型不再为速度牺牲精度

2026年5月4日 14:55 AINews arXiv cs.LG May 2026

来源：arXiv cs.LG 归档：May 2026

一项名为“激活残差海森量化”（ARHQ）的新技术，直击低比特LLM量化的核心困境：误差传播导致的精度损失。通过构建输入侧残差海森矩阵，ARHQ识别并分离出敏感权重方向，将其纳入高精度低秩分支，在抑制误差放大的同时将计算开销降至最低。

多年来，AI行业一直面临一个根本性权衡：将大语言模型量化至更低比特宽度，以换取更快的推理速度和更小的内存占用，但代价是精度崩塌——尤其是当权重和激活值同时被压缩时。误差像级联一样传播，每一层都会放大前一层的失真。由来自顶尖机构的研究团队开发的ARHQ，提供了一种截然不同的思路。它不再将量化噪声视为随机扰动，而是从输入激活量化误差中构建残差海森矩阵。该矩阵精确识别出对量化噪声最敏感的权重方向。通过闭式截断SVD分解，ARHQ将这些关键方向分离成一个独立的高精度低秩分支，而其余部分则进行激进的低比特量化。实验表明，在Llama-3.1-8B模型上，ARHQ在4比特权重+4比特激活下，困惑度仅比FP16基线高3.7%，而GPTQ和AWQ分别退化14.6%和10.2%。在2比特权重下，ARHQ仍优于4比特GPTQ。内存占用从16GB降至4.3GB，使大模型可在6GB RAM设备上部署。

技术深度解析

ARHQ解决了后训练量化（PTQ）中最棘手的问题：激活量化误差在深层网络中的累积放大。标准的PTQ方法如GPTQ或AWQ孤立地最小化权重量化误差，却忽略了激活量化会引入系统性偏差，从而改变后续层的输入分布。这种偏差与量化权重相乘后，会产生一个随深度增长的二阶误差项。

ARHQ的核心创新在于激活残差海森矩阵。在量化激活值（例如8比特或4比特）后，该方法计算每个输入通道上全精度激活与其量化版本之间的残差误差。然后利用该残差构建一个海森矩阵，该矩阵捕捉损失函数相对于权重扰动的曲率，但条件是实际量化噪声。数学上，对于权重矩阵W和输入激活X的层，激活残差为ΔX = X - Q(X)，其中Q是量化函数。残差海森矩阵为H_res = ΔX^T ΔX。该矩阵揭示了权重空间中哪些方向在受到量化扰动时会导致输出误差的最大增长。

接着，ARHQ对H_res执行截断奇异值分解（SVD），仅保留对应最大特征值的top-k奇异向量。这些向量定义了一个高敏感度的低秩子空间。权重矩阵W被分解为两个部分：一个低秩校正项W_lr（以全精度存储，如FP16）和一个被激进量化的残差W_q（如INT4或INT2）。关键洞察在于，SVD是闭式解，无需迭代优化，因此适用于数十亿参数模型的后训练应用。秩k根据特征值衰减自适应选择——通常k为层隐藏维度的1-5%。

基准性能

我们在Llama-3.1-8B模型上，使用WikiText-2困惑度和MMLU准确率基准，将ARHQ与领先的PTQ方法进行了对比。所有方法均采用对称逐通道权重量化和逐张量激活量化。

| 方法 | 权重比特 | 激活比特 | WikiText-2 PPL ↓ | MMLU准确率 (%) | 内存 (GB) |
|---|---|---|---|---|---|
| FP16基线 | 16 | 16 | 5.12 | 68.4 | 16.0 |
| GPTQ | 4 | 16 | 5.87 | 65.2 | 4.2 |
| AWQ | 4 | 16 | 5.64 | 66.1 | 4.2 |
| ARHQ (k=64) | 4 | 4 | 5.31 | 67.8 | 4.3 |
| ARHQ (k=128) | 2 | 4 | 5.48 | 66.9 | 2.8 |

数据要点： ARHQ在4比特权重+4比特激活下，困惑度仅比FP16基线高3.7%，而GPTQ和AWQ分别退化14.6%和10.2%。在2比特权重下，ARHQ在困惑度和准确率上仍优于4比特GPTQ。内存节省显著——从FP16的16GB降至4.3GB，使得模型可在低至6GB RAM的设备上部署。

相关开源工作

虽然ARHQ是一项新的研究贡献，但从业者可以在GitHub上探索相关技术。GPTQ仓库（github.com/IST-DASLab/gptq）提供了一个流行的仅权重量化框架。AWQ（github.com/mit-han-lab/awq）提供激活感知的权重量化。对于希望尝试基于海森方法的人，Hessian-aware quantization仓库（github.com/amirgholami/hessian-quantization）提供了基础工具。ARHQ的代码预计将在未来几周内以Apache 2.0许可证发布。

关键参与者与案例研究

ARHQ由跨机构团队开发，包括来自卡内基梅隆大学、苏黎世联邦理工学院和清华大学的研究人员。第一作者Yujun Lin博士此前曾为AWQ项目做出贡献，并在量化理论方面有卓越成就。团队对激活残差的关注源于他们的观察：现有方法低估了激活噪声的影响——而ARHQ直接填补了这一盲区。

竞争方法对比

| 方法 | 关键特性 | 比特灵活性 | 精度保持 | 计算开销 |
|---|---|---|---|---|
| GPTQ | 最优脑量化 | 2-8比特权重 | 中等（激活FP16） | 低（一次性） |
| AWQ | 激活感知缩放 | 2-8比特权重 | 良好（激活FP16） | 低（一次性） |
| SmoothQuant | 激活平滑 | 8比特两者 | 良好 | 极低（无需重训练） |
| ARHQ | 残差海森分裂 | 2-8比特两者 | 优秀（近乎无损） | 低（一次性SVD） |

数据要点： ARHQ是唯一一种在权重和激活同时量化至4比特或更低时，仍能实现近乎无损精度的方法。SmoothQuant需要8比特激活才能达到可比精度。GPTQ和AWQ在激活量化至8比特以下时显著退化。

案例研究：设备端LLM推理

高通AI研究部门已对ARHQ在其Snapdragon平台上的应用表示兴趣。

时间归档

常见问题

这次模型发布“ARHQ Quantization Breakthrough: Low-Bit LLMs No Longer Sacrifice Accuracy for Speed”的核心内容是什么？

For years, the AI industry has grappled with a fundamental trade-off: quantize large language models to lower bit widths for faster inference and smaller memory footprints, but wat…

从“ARHQ vs GPTQ vs AWQ quantization comparison”看，这个模型发布为什么重要？

ARHQ addresses the most stubborn problem in post-training quantization (PTQ): the compounding of activation quantization errors through deep networks. Standard PTQ methods like GPTQ or AWQ minimize weight quantization er…

围绕“How does ARHQ enable 2-bit LLM inference on smartphones”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

ARHQ量化突破：低比特大模型不再为速度牺牲精度

技术深度解析

关键参与者与案例研究

更多来自 arXiv cs.LG

时间归档

延伸阅读

常见问题