技术深度解析
极端低位量化(≤2比特)与现已普及的4比特、8比特量化有着本质区别。在1比特下,权重本质上只能是-1或+1(或在二进制表述中为0/1)。因此,Salomi项目的技术路径必须同时解决几个核心问题。
首先是表示问题。将全精度权重直接舍入到{-1, +1}会损失过多信息。Salomi很可能采用可学习的量化尺度与非均匀码本。它可能不是直接将比特分配给权重,而是学习一组最优的离散值(例如,对于1.5比特,使用{-a, 0, +a})以及每个张量块共享的缩放因子。来自MIT HAT(硬件感知Transformer)和BitNet等项目的研究已证明了1比特Transformer的可行性,但主要限于较小规模。Salomi的贡献在于将这一技术扩展到现代LLM的规模。
其次是优化问题。直接在低位空间进行训练或微调至关重要。这涉及使用直通估计器(STE)的量化感知训练(QAT)。STE允许梯度在反向传播过程中通过不可微的量化函数。Salomi可能会融入更先进的梯度估计器,或采用渐进式量化,在训练过程中逐步降低精度以稳定学习过程。
第三是架构协同设计。标准Transformer的LayerNorm和残差连接并未针对1比特权重进行优化。Salomi可能会整合专为低位计算设计的架构元素。BitNet b1.58——一个近期开源的模型——提出了一种1.58比特的LLM架构,用更简单的RMSNorm替代LayerNorm,并使用缩放权重矩阵,在数亿参数规模的模型上展示了有希望的初步结果。Salomi的目标是将这一范式推向70亿以上参数规模。
揭示此路径的关键GitHub仓库包括:
* BitNet (microsoft/BitNet):1比特Transformer架构研究的官方仓库,提供核心构建模块。
* HQQ (mobiusml/hqq):半二次量化,一种快速、无需训练的量化器,可降至2比特,可作为量化流程中的潜在组件。
* GPTQ (IST-DASLab/gptq):虽然专注于3-4比特,但其高效的训练后量化算法是任何新方法都必须超越的基准。
| 量化方法 | 目标比特数 (权重) | 关键技术 | 需要训练吗? | 可行模型规模 |
|---|---|---|---|---|
| GPTQ | 3-4 | 最优脑量化,逐层校准 | 否(训练后) | 700亿+ 参数 |
| AWQ | 4 | 激活感知缩放,保护显著权重 | 否(训练后) | 700亿+ 参数 |
| BitNet b1.58 | 1.58 | 架构重新设计,1.58比特权重 | 是(从头开始) | ~7亿 参数 |
| QLoRA (4比特) | 4 | 低秩适应,微调量化模型 | 是(微调) | 700亿+ 参数 |
| Salomi 项目目标 | 1-2 | 可能:混合QAT、非均匀码本、架构协同设计 | 是 | 70亿+ 参数 (目标) |
数据启示: 表格揭示了一个清晰的权衡边界:更低的比特精度目前迫使人们在较小的模型规模(如BitNet)或依赖在3比特以下遭遇瓶颈的训练后方法之间做出选择。Salomi的雄心是通过将架构创新与高级训练相结合,来突破这一边界,目标是在数十亿规模模型上实现高压缩比下的高性能。
关键参与者与案例研究
这场极端量化竞赛并非在真空中进行。Salomi存在于一个竞争激烈的格局中,科技巨头和敏捷的研究实验室都在追求效率突破。
深度参与的行业巨头:
* Google 通过其用于设备端机器学习的 TensorFlow Lite Micro 框架以及像 PRADO 这样的基于投影模型的研究,拥有深厚的技术专长。其设计用于Pixel手机运行的 Gemini Nano 模型,代表了高度优化(尽管不是1比特)模型的实际部署。
* Meta 是开源高效AI领域的强大力量。其 Llama 系列模型,连同 LLM.int8() 等量化工具以及在其推理栈中对GPTQ/AWQ的支持,树立了事实上的标准。Meta在 权重子空间学习 等领域的基础研究可能直接为低位方法提供思路。
* Microsoft 通过其 BitNet 研究直接贡献了力量。该公司有降低在其整个生态系统中驱动Copilot所产生的巨额推理成本的战略需求。极端量化带来的10倍成本降低,将对其云业务利润率产生变革性影响。
* Apple 行事隐秘,但可以说是最终的目标市场。其专注于为iPhone、Mac和Vision Pro提供设备端AI,使其成为典型的“边缘”计算公司。Apple的自研芯片(如Neural Engine)和高度集成的软硬件栈,使其成为极端低位量化技术最理想的落地场景,一旦技术成熟,可能迅速集成进其产品线,重塑移动AI体验。