Salomi项目1-2比特量化突破:或将彻底粉碎大语言模型部署壁垒

Salomi项目的出现,标志着全球迈向超高效人工智能的竞赛进入了一个关键升级阶段。模型量化——即降低模型权重的数值精度——是一种成熟的缩小模型尺寸、加速推理的技术。然而,Salomi计划瞄准的是被许多人视为最后疆域的领域:将拥有数十亿参数的大语言模型压缩至每个参数仅用1或2比特表示。这并非渐进式改进,而是对神经网络存储和处理信息方式的彻底重构。

核心挑战在于性能的灾难性崩溃。当精度从标准的16位或8位格式降至如此极端低位时,权重矩阵中的信息损失会异常严重,导致模型准确性急剧下降。传统量化方法在低于3比特时往往遭遇瓶颈,而Salomi项目试图通过算法与架构的协同设计,在超高压缩比下维持模型性能。这一突破若得以实现,意味着当前需要高端GPU集群运行的70B参数模型,未来可能在智能手机或边缘设备上流畅响应,从根本上改变AI能力的分布格局。这不仅关乎技术优化,更是一场关于计算民主化与AI普及性的深刻变革。

技术深度解析

极端低位量化(≤2比特)与现已普及的4比特、8比特量化有着本质区别。在1比特下,权重本质上只能是-1或+1(或在二进制表述中为0/1)。因此,Salomi项目的技术路径必须同时解决几个核心问题。

首先是表示问题。将全精度权重直接舍入到{-1, +1}会损失过多信息。Salomi很可能采用可学习的量化尺度与非均匀码本。它可能不是直接将比特分配给权重,而是学习一组最优的离散值(例如,对于1.5比特,使用{-a, 0, +a})以及每个张量块共享的缩放因子。来自MIT HAT(硬件感知Transformer)和BitNet等项目的研究已证明了1比特Transformer的可行性,但主要限于较小规模。Salomi的贡献在于将这一技术扩展到现代LLM的规模。

其次是优化问题。直接在低位空间进行训练或微调至关重要。这涉及使用直通估计器(STE)的量化感知训练(QAT)。STE允许梯度在反向传播过程中通过不可微的量化函数。Salomi可能会融入更先进的梯度估计器,或采用渐进式量化,在训练过程中逐步降低精度以稳定学习过程。

第三是架构协同设计。标准Transformer的LayerNorm和残差连接并未针对1比特权重进行优化。Salomi可能会整合专为低位计算设计的架构元素。BitNet b1.58——一个近期开源的模型——提出了一种1.58比特的LLM架构,用更简单的RMSNorm替代LayerNorm,并使用缩放权重矩阵,在数亿参数规模的模型上展示了有希望的初步结果。Salomi的目标是将这一范式推向70亿以上参数规模。

揭示此路径的关键GitHub仓库包括:
* BitNet (microsoft/BitNet):1比特Transformer架构研究的官方仓库,提供核心构建模块。
* HQQ (mobiusml/hqq):半二次量化,一种快速、无需训练的量化器,可降至2比特,可作为量化流程中的潜在组件。
* GPTQ (IST-DASLab/gptq):虽然专注于3-4比特,但其高效的训练后量化算法是任何新方法都必须超越的基准。

| 量化方法 | 目标比特数 (权重) | 关键技术 | 需要训练吗? | 可行模型规模 |
|---|---|---|---|---|
| GPTQ | 3-4 | 最优脑量化,逐层校准 | 否(训练后) | 700亿+ 参数 |
| AWQ | 4 | 激活感知缩放,保护显著权重 | 否(训练后) | 700亿+ 参数 |
| BitNet b1.58 | 1.58 | 架构重新设计,1.58比特权重 | 是(从头开始) | ~7亿 参数 |
| QLoRA (4比特) | 4 | 低秩适应,微调量化模型 | 是(微调) | 700亿+ 参数 |
| Salomi 项目目标 | 1-2 | 可能:混合QAT、非均匀码本、架构协同设计 | 是 | 70亿+ 参数 (目标) |

数据启示: 表格揭示了一个清晰的权衡边界:更低的比特精度目前迫使人们在较小的模型规模(如BitNet)或依赖在3比特以下遭遇瓶颈的训练后方法之间做出选择。Salomi的雄心是通过将架构创新与高级训练相结合,来突破这一边界,目标是在数十亿规模模型上实现高压缩比下的高性能。

关键参与者与案例研究

这场极端量化竞赛并非在真空中进行。Salomi存在于一个竞争激烈的格局中,科技巨头和敏捷的研究实验室都在追求效率突破。

深度参与的行业巨头:
* Google 通过其用于设备端机器学习的 TensorFlow Lite Micro 框架以及像 PRADO 这样的基于投影模型的研究,拥有深厚的技术专长。其设计用于Pixel手机运行的 Gemini Nano 模型,代表了高度优化(尽管不是1比特)模型的实际部署。
* Meta 是开源高效AI领域的强大力量。其 Llama 系列模型,连同 LLM.int8() 等量化工具以及在其推理栈中对GPTQ/AWQ的支持,树立了事实上的标准。Meta在 权重子空间学习 等领域的基础研究可能直接为低位方法提供思路。
* Microsoft 通过其 BitNet 研究直接贡献了力量。该公司有降低在其整个生态系统中驱动Copilot所产生的巨额推理成本的战略需求。极端量化带来的10倍成本降低,将对其云业务利润率产生变革性影响。
* Apple 行事隐秘,但可以说是最终的目标市场。其专注于为iPhone、Mac和Vision Pro提供设备端AI,使其成为典型的“边缘”计算公司。Apple的自研芯片(如Neural Engine)和高度集成的软硬件栈,使其成为极端低位量化技术最理想的落地场景,一旦技术成熟,可能迅速集成进其产品线,重塑移动AI体验。

常见问题

这次模型发布“Salomi Project's 1-2 Bit Quantization Breakthrough Could Shatter LLM Deployment Barriers”的核心内容是什么?

The emergence of the Salomi project represents a pivotal escalation in the global race toward hyper-efficient artificial intelligence. While model quantization—reducing the numeric…

从“How does 1-bit quantization differ from 4-bit GPTQ?”看,这个模型发布为什么重要?

Extreme low-bit quantization (≤2 bits) is a fundamentally different problem from the 4-bit and 8-bit quantization that has become commonplace. At 1-bit, a weight can essentially only be -1 or +1 (or 0/1 in a binary formu…

围绕“What are the hardware requirements for running a 2-bit LLM locally?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。