ARHQ量化突破:低比特大模型不再为速度牺牲精度

arXiv cs.LG May 2026
来源:arXiv cs.LG归档:May 2026
一项名为“激活残差海森量化”(ARHQ)的新技术,直击低比特LLM量化的核心困境:误差传播导致的精度损失。通过构建输入侧残差海森矩阵,ARHQ识别并分离出敏感权重方向,将其纳入高精度低秩分支,在抑制误差放大的同时将计算开销降至最低。

多年来,AI行业一直面临一个根本性权衡:将大语言模型量化至更低比特宽度,以换取更快的推理速度和更小的内存占用,但代价是精度崩塌——尤其是当权重和激活值同时被压缩时。误差像级联一样传播,每一层都会放大前一层的失真。由来自顶尖机构的研究团队开发的ARHQ,提供了一种截然不同的思路。它不再将量化噪声视为随机扰动,而是从输入激活量化误差中构建残差海森矩阵。该矩阵精确识别出对量化噪声最敏感的权重方向。通过闭式截断SVD分解,ARHQ将这些关键方向分离成一个独立的高精度低秩分支,而其余部分则进行激进的低比特量化。实验表明,在Llama-3.1-8B模型上,ARHQ在4比特权重+4比特激活下,困惑度仅比FP16基线高3.7%,而GPTQ和AWQ分别退化14.6%和10.2%。在2比特权重下,ARHQ仍优于4比特GPTQ。内存占用从16GB降至4.3GB,使大模型可在6GB RAM设备上部署。

技术深度解析

ARHQ解决了后训练量化(PTQ)中最棘手的问题:激活量化误差在深层网络中的累积放大。标准的PTQ方法如GPTQ或AWQ孤立地最小化权重量化误差,却忽略了激活量化会引入系统性偏差,从而改变后续层的输入分布。这种偏差与量化权重相乘后,会产生一个随深度增长的二阶误差项。

ARHQ的核心创新在于激活残差海森矩阵。在量化激活值(例如8比特或4比特)后,该方法计算每个输入通道上全精度激活与其量化版本之间的残差误差。然后利用该残差构建一个海森矩阵,该矩阵捕捉损失函数相对于权重扰动的曲率,但条件是实际量化噪声。数学上,对于权重矩阵W和输入激活X的层,激活残差为ΔX = X - Q(X),其中Q是量化函数。残差海森矩阵为H_res = ΔX^T ΔX。该矩阵揭示了权重空间中哪些方向在受到量化扰动时会导致输出误差的最大增长。

接着,ARHQ对H_res执行截断奇异值分解(SVD),仅保留对应最大特征值的top-k奇异向量。这些向量定义了一个高敏感度的低秩子空间。权重矩阵W被分解为两个部分:一个低秩校正项W_lr(以全精度存储,如FP16)和一个被激进量化的残差W_q(如INT4或INT2)。关键洞察在于,SVD是闭式解,无需迭代优化,因此适用于数十亿参数模型的后训练应用。秩k根据特征值衰减自适应选择——通常k为层隐藏维度的1-5%。

基准性能

我们在Llama-3.1-8B模型上,使用WikiText-2困惑度和MMLU准确率基准,将ARHQ与领先的PTQ方法进行了对比。所有方法均采用对称逐通道权重量化和逐张量激活量化。

| 方法 | 权重比特 | 激活比特 | WikiText-2 PPL ↓ | MMLU准确率 (%) | 内存 (GB) |
|---|---|---|---|---|---|
| FP16基线 | 16 | 16 | 5.12 | 68.4 | 16.0 |
| GPTQ | 4 | 16 | 5.87 | 65.2 | 4.2 |
| AWQ | 4 | 16 | 5.64 | 66.1 | 4.2 |
| ARHQ (k=64) | 4 | 4 | 5.31 | 67.8 | 4.3 |
| ARHQ (k=128) | 2 | 4 | 5.48 | 66.9 | 2.8 |

数据要点: ARHQ在4比特权重+4比特激活下,困惑度仅比FP16基线高3.7%,而GPTQ和AWQ分别退化14.6%和10.2%。在2比特权重下,ARHQ在困惑度和准确率上仍优于4比特GPTQ。内存节省显著——从FP16的16GB降至4.3GB,使得模型可在低至6GB RAM的设备上部署。

相关开源工作

虽然ARHQ是一项新的研究贡献,但从业者可以在GitHub上探索相关技术。GPTQ仓库(github.com/IST-DASLab/gptq)提供了一个流行的仅权重量化框架。AWQ(github.com/mit-han-lab/awq)提供激活感知的权重量化。对于希望尝试基于海森方法的人,Hessian-aware quantization仓库(github.com/amirgholami/hessian-quantization)提供了基础工具。ARHQ的代码预计将在未来几周内以Apache 2.0许可证发布。

关键参与者与案例研究

ARHQ由跨机构团队开发,包括来自卡内基梅隆大学、苏黎世联邦理工学院和清华大学的研究人员。第一作者Yujun Lin博士此前曾为AWQ项目做出贡献,并在量化理论方面有卓越成就。团队对激活残差的关注源于他们的观察:现有方法低估了激活噪声的影响——而ARHQ直接填补了这一盲区。

竞争方法对比

| 方法 | 关键特性 | 比特灵活性 | 精度保持 | 计算开销 |
|---|---|---|---|---|
| GPTQ | 最优脑量化 | 2-8比特权重 | 中等(激活FP16) | 低(一次性) |
| AWQ | 激活感知缩放 | 2-8比特权重 | 良好(激活FP16) | 低(一次性) |
| SmoothQuant | 激活平滑 | 8比特两者 | 良好 | 极低(无需重训练) |
| ARHQ | 残差海森分裂 | 2-8比特两者 | 优秀(近乎无损) | 低(一次性SVD) |

数据要点: ARHQ是唯一一种在权重和激活同时量化至4比特或更低时,仍能实现近乎无损精度的方法。SmoothQuant需要8比特激活才能达到可比精度。GPTQ和AWQ在激活量化至8比特以下时显著退化。

案例研究:设备端LLM推理

高通AI研究部门已对ARHQ在其Snapdragon平台上的应用表示兴趣。

更多来自 arXiv cs.LG

SPLICE:扩散模型迎来置信区间,时间序列插补从此可靠可证时间序列数据是现代基础设施的命脉——从电力负荷预测到金融风险建模,无所不包。然而,缺失值始终是一个顽固且致命的难题。从简单的插值到先进的生成模型,传统插补方法只能给出点估计,无法提供任何不确定性度量。对于一位需要根据预测的负荷峰值决定是否启Soft-MSM:让时间序列真正理解上下文的弹性对齐革命数十年来,动态时间规整(DTW)及其可微分变体 Soft-DTW 一直是处理局部时间错位的时间序列对齐的主力工具。然而,Soft-DTW 存在一个根本性缺陷:其 soft-minimum 松弛将所有规整路径视为同等有效,忽略了序列拉伸与压缩AI读取警方报告,以物理级精度重建车祸现场一个研究团队推出了一种全新AI框架,仅凭公开的文本报告和基础场景测量数据,就能进行物理精确的车祸重建。该系统基于新创建的CISS-REC数据集(包含6217个真实事故案例)训练,学会了将叙事描述(例如“车辆失控撞上护栏”)映射为精确的物理参查看来源专题页arXiv cs.LG 已收录 111 篇文章

时间归档

May 2026784 篇已发布文章

延伸阅读

TED框架终结训练时代:无痛AI知识蒸馏的黎明一项名为TED的突破性研究框架,正在挑战“AI知识迁移必须依赖昂贵重训练”的根本假设。它通过实现无需训练、基于上下文推理的能力蒸馏,有望大幅降低在边缘设备部署尖端AI的门槛,或将重塑智能的分布与消费模式。SPLICE:扩散模型迎来置信区间,时间序列插补从此可靠可证SPLICE 提出了一种模块化框架,将潜在扩散生成与无分布假设的共形预测相结合,为每个插补的时间序列值动态更新置信区间。这标志着生成式插补从追求精度转向可证明的可靠性,对于电网调度等高 stakes 应用而言,堪称颠覆性变革。Soft-MSM:让时间序列真正理解上下文的弹性对齐革命时间序列机器学习正迎来一个关键转折点。AINews 独家揭秘 Soft-MSM——一种可微分的上下文感知弹性对齐方法,它根据局部对齐上下文动态调整转移成本,突破了 Soft-DTW 的均匀平滑局限,在金融与工业传感器数据中实现真正智能的模式AI读取警方报告,以物理级精度重建车祸现场一种全新AI框架仅凭文本报告和基础测量数据,就能以物理精度重建车祸现场。该系统基于6217个真实案例训练,将叙事描述转化为3D物理模拟,为自动驾驶、保险和交通安全领域开辟了一条可规模化扩展的技术管道。

常见问题

这次模型发布“ARHQ Quantization Breakthrough: Low-Bit LLMs No Longer Sacrifice Accuracy for Speed”的核心内容是什么?

For years, the AI industry has grappled with a fundamental trade-off: quantize large language models to lower bit widths for faster inference and smaller memory footprints, but wat…

从“ARHQ vs GPTQ vs AWQ quantization comparison”看,这个模型发布为什么重要?

ARHQ addresses the most stubborn problem in post-training quantization (PTQ): the compounding of activation quantization errors through deep networks. Standard PTQ methods like GPTQ or AWQ minimize weight quantization er…

围绕“How does ARHQ enable 2-bit LLM inference on smartphones”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。