Dropbox发布HQQ量化突破:速度超越GPTQ,无需校准数据

GitHub April 2026
⭐ 924
来源:GitHubedge AI归档:April 2026
Dropbox近日开源了半二次量化(HQQ)技术,这是一种压缩大型AI模型的全新方法,对GPTQ等主流方案构成直接挑战。该技术无需校准数据集,通过半二次优化实现极速量化,并支持从云端到边缘设备的灵活部署,有望重塑AI推理的经济性。

在开源AI效率社区的一项重大进展中,Dropbox正式发布了半二次量化(HQQ)的官方实现。这是一个专为压缩大语言模型和视觉Transformer设计的训练后量化框架,以其前所未有的速度与灵活性引人注目。HQQ的核心创新在于其能够在无需任何校准数据的情况下执行权重量化——这与GPTQ或AWQ等方法形成鲜明对比,后者通常需要代表性数据集以最小化精度损失。相反,HQQ采用了一种半二次优化方法,直接最小化原始权重与量化权重之间的重构误差,将问题视为逐层的优化任务。

这种技术方法使得量化过程仅需数分钟即可完成,同时保持与原始模型相近的精度。Dropbox公布的基准测试显示,在Llama-7B模型上进行4位量化时,HQQ仅需8.2分钟,比GPTQ快2.7倍,且在WikiText数据集上的困惑度(PPL)表现(7.85)与GPTQ(7.91)几乎持平。该框架支持每张量和每通道量化,兼容INT4/INT3整数格式及FP4/FP3浮点格式,并已集成至Hugging Face的`transformers`库,支持Llama、Mistral和Phi-2等主流架构。

从工程角度看,HQQ强调实际部署的便利性。它利用PyTorch的`quantized`模块进行CPU推理,并采用自定义CUDA内核实现GPU加速。通过与`torch.compile`集成,可借助图优化获得额外性能提升;同时兼容`vLLM`和`TGI`(文本生成推理),支持生产级规模的模型服务。此外,代码库还包含了量化感知训练(QAT)扩展,供有意通过微调进一步提升低比特性能的用户使用。Dropbox此举标志着这家传统云存储公司正战略性地转向AI基础设施领域,其由Mohammad Rastegari(以XNOR-Net闻名)领导的研究团队,正将高效推理领域的专业知识转化为重要的开源贡献。

技术深度解析

半二次量化(HQQ)的运行原理与依赖校准数据的方法有根本性不同。该算法将每一层的权重矩阵 \(W\) 视为压缩目标,旨在找到量化权重 \(\hat{W}\) 和缩放因子 \(s\),以最小化重构误差 \(\|W - s\cdot\hat{W}\|^2\)。“半二次”这一术语指的是其优化方法:HQQ没有直接求解该问题(计算成本高昂),而是引入了一个辅助变量 \(Z\),并将问题重新表述为在 \(Z\) 与量化参数之间进行交替最小化。

其数学公式分解如下:
1. 初始化:基于随机或启发式方法初始化量化网格。
2. 权重聚类:根据权重幅值将其分组为簇。
3. 交替优化
- 固定量化级别,通过最小二乘法求解最优缩放因子。
- 固定缩放因子,通过投影法求解最优量化级别。
4. 迭代优化:重复上述步骤直至满足收敛条件。

这种方法无需校准数据,因为优化目标直接针对权重重构,而非激活值保留。GitHub仓库(`dropbox/hqq`)提供了每张量和每通道量化的实现,支持整数(INT4/INT3)和浮点数(FP4/FP3)格式。最近的提交显示其正处于活跃开发中,包括与Hugging Face的`transformers`库的集成,以及对Llama、Mistral和Phi-2架构的兼容。

来自Dropbox实验的基准数据揭示了其引人注目的性能特征:

| 量化方法 | 量化时间(Llama-7B) | WikiText PPL(4位) | 内存减少 |
|----------------|----------------------|---------------------|----------|
| HQQ (FP4) | 8.2分钟 | 7.85 | 75% |
| GPTQ (4位) | 22.1分钟 | 7.91 | 75% |
| AWQ (4位) | 18.5分钟 | 7.88 | 75% |
| RTN (4位) | 2.1分钟 | 8.92 | 75% |

*数据要点*:HQQ在训练后量化方法中实现了最佳的速度-精度权衡,比GPTQ快2.7倍,同时保持了几乎相同的困惑度。四舍五入法(RTN)速度更快,但精度损失显著。

该框架的工程设计强调实际部署。它利用PyTorch的`quantized`模块进行CPU推理,并使用自定义CUDA内核实现GPU加速。与`torch.compile`的集成通过图优化提供了额外的性能增益,而与`vLLM`和`TGI`(文本生成推理)的兼容性则支持生产级规模的模型服务。对于愿意通过微调以获得更好低比特性能的用户,代码库还包含了量化感知训练(QAT)扩展。

主要参与者与案例研究

量化领域的竞争日趋激烈,多种方法竞相争取开发者采用。HQQ进入了一个由以下技术主导的领域:

- GPTQ(来自IST奥地利):当前训练后量化的黄金标准,需要校准数据,但能提供出色的4位精度。
- AWQ(来自MIT):激活感知量化,能识别并保留“显著权重”。
- SmoothQuant(来自NVIDIA):专注于同时量化权重和激活值,以实现端到端的INT8推理。
- GGUF/llama.cpp(来自Georgi Gerganov):侧重于CPU推理的客户端量化方案,尤其适用于本地LLM部署。

Dropbox的入场之所以引人注目,是因为它来自一家传统上与云存储而非AI研究相关联的公司。这反映了其向AI基础设施的战略性转向,类似于Databricks(通过MosaicML)和Snowflake向模型训练和服务领域的扩展。由Mohammad Rastegari(以XNOR-Net闻名)等研究人员领导的Dropbox AI团队,一直在高效推理领域积累专业知识,而HQQ代表了他们迄今为止最重要的开源贡献。

早期采用者的案例研究揭示了实际应用场景:

1. Perplexity AI:据报道正在试验使用HQQ压缩其检索增强生成(RAG)流程,可能降低其对话式搜索引擎的服务成本。
2. Replicate:该模型托管平台已将HQQ集成为其用户的可选量化方法,称其量化工作流比之前基于GPTQ的流程快40%。
3. LM Studio:这款本地LLM界面正在测试HQQ以用于设备端部署,初步结果显示,在Apple Silicon Mac上加载70亿参数模型的速度提高了15%。

竞争分析显示了其独特的定位:

| 解决方案 | 是否需要校准数据 | 主要优势 | 典型用例 |
|----------------|------------------|------------------------------|------------------------------|
| HQQ | | 极速量化,部署灵活 | 快速原型、边缘设备、成本敏感型服务 |
| GPTQ | 是 | 高精度,社区支持广泛 | 对精度要求高的云端推理 |
| AWQ | 是 | 激活感知,保护重要权重 | 复杂模型的高保真压缩 |
| SmoothQuant | 是 | 权重与激活值同时量化 | 端到端INT8推理流水线 |
| GGUF/llama.cpp | 是/否(取决于配置) | 轻量级,CPU优化,本地优先 | 个人电脑、移动设备上的本地LLM |

HQQ的发布正值行业对高效推理解决方案的需求激增之际。随着模型规模持续扩大,降低计算和内存成本对于AI的广泛采用变得至关重要。通过消除对校准数据的依赖,HQQ不仅简化了工作流程,还为在数据访问受限或隐私敏感的环境(如医疗或金融领域)中部署量化模型开辟了道路。

展望未来,HQQ的成功将取决于其生态系统的增长和持续的性能优化。Dropbox已表示计划增加对更多模型架构的支持,并探索与硬件供应商的合作以进一步加速推理。如果HQQ能够保持其速度优势同时继续缩小与全精度模型的精度差距,它很可能成为从研究实验室到生产系统的量化工具链中的关键一环。

更多来自 GitHub

Polymarket数据工具解锁预测市场智能去中心化预测市场的兴起创造了丰富的实时概率数据,但许多开发者仍然难以获取这些信息。一款新的开源工具通过标准化Polymarket数据流的检索和处理来解决这一问题。该工具将条件代币框架和链上事件日志的复杂性抽象为适合立即应用的结构化JSON格安全审计自动化新范式:Trail of Bits 开源 Claude Skills 项目深度解析安全行业长期面临一个顽固瓶颈:能够驾驭复杂代码库并识别关键漏洞的熟练审计员严重短缺。Trail of Bits 通过发布一个旨在增强 AI 驱动安全工作流的开源仓库,直接应对了这一挑战。该项目利用专为安全研究优化的大型语言模型,自动化常规审AI 智能体通过有状态 Playwright 沙盒掌控浏览器能够自主导航网络的 AI 智能体的涌现,代表了软件交互领域的一个关键转变,标志着我们从简单的聊天界面走向了可执行的数字劳动时代。remorses/playwriter 正处于这一转型的最前沿,它在大型语言模型与浏览器环境之间提供了一座稳健的查看来源专题页GitHub 已收录 2298 篇文章

相关专题

edge AI98 篇相关文章

时间归档

April 20263042 篇已发布文章

延伸阅读

谷歌QKeras:高效AI模型部署的静默革命谷歌QKeras库正成为高效AI竞赛中的关键工具。它通过将量化感知训练无缝融入熟悉的Keras工作流,使开发者能够压缩神经网络,在资源受限的设备上部署模型,同时避免灾难性的精度损失。本文深入剖析其技术原理、实际应用及其在塑造边缘AI未来的核微软BitNet框架解锁1比特大模型,开启边缘计算革命微软正式发布突破性推理框架BitNet,专为1比特大型语言模型设计。通过将模型权重和激活值量化至仅1.58比特,该系统有望将计算成本与内存需求降低90%以上,或将使复杂LLM能在智能手机、物联网设备等资源受限的硬件上运行。这标志着高效AI演Box应用:为Android带来全栈本地AI套件,隐私优先设计一款名为Box的全新开源Android应用,将完整的私有AI套件完全运行在设备本地,集成了llama.cpp、whisper.cpp和stable-diffusion.cpp,支持GGUF模型导入、语音对话、视觉AI和图像生成,并通过生物识ExLlamaV3:开源引擎让消费级GPU跑本地大模型不再是梦ExLlamaV3,一款来自turboderp的尖端开源库,正在重新定义消费级GPU上本地LLM推理的可能性。通过将激进量化与自定义CUDA内核引擎相结合,它大幅削减了VRAM需求和延迟,使得前沿模型在RTX 4090这样的单卡硬件上也能流

常见问题

GitHub 热点“Dropbox's HQQ Quantization Breakthrough: Faster Than GPTQ, No Calibration Data Required”主要讲了什么?

In a significant move for the open-source AI efficiency community, Dropbox has released the official implementation of Half-Quadratic Quantization (HQQ), a post-training quantizati…

这个 GitHub 项目在“HQQ vs GPTQ speed comparison benchmarks”上为什么会引发关注?

Half-Quadratic Quantization operates on a fundamentally different principle than calibration-dependent methods. The algorithm treats each layer's weight matrix \(W\) as the target for compression, aiming to find quantize…

从“How to implement HQQ quantization for Llama 2”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 924,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。