Pollux原生向量量化：0.76比特参数重新定义模型压缩极限

2026年7月1日 21:37 AINews Hacker News July 2026

来源：Hacker News model compression edge AI large language model 归档：July 2026

全新大语言模型Pollux通过原生向量量化技术，将7B参数模型从14GB压缩至仅700MB，实现每参数0.76比特的惊人压缩率。这一由AINews独家报道的突破，有望将强大语言模型带入智能手机和边缘设备，彻底摆脱云端依赖。

在一项可能重塑AI部署格局的进展中，Pollux证明了大语言模型可以被压缩到远超传统后训练量化的极限。通过将向量量化直接嵌入训练过程——而非事后追加——Pollux实现了前所未有的每参数0.76比特。这意味着一个通常占用14GB（16位浮点）的70亿参数模型，现在仅需约700MB存储。其影响深远：高质量语言模型很快就能完全离线运行于智能手机、汽车系统和物联网设备上，消除延迟、隐私顾虑和云端成本。Pollux的方法标志着一种新的设计哲学：压缩不再是事后补救，而是从训练之初就融入模型核心。

技术深度解析

Pollux的核心创新在于其原生向量量化（NVQ）框架。与传统的后训练量化方法——如GPTQ、AWQ或GGML——不同，后者是在模型完全训练后降低权重的位宽（例如从FP16降至INT4或INT2），Pollux从训练的第一步就将量化集成到训练循环中。模型学习将其参数表示为学习到的码本中的紧凑向量，而非独立的标量值。

NVQ的工作原理

Pollux的核心是用乘积量化方案替代每个权重矩阵。权重矩阵被分割成子向量，每个子向量被分配一个指向共享码本的索引。在前向传播过程中，模型从码本中检索最近的质心并用于计算。梯度反向传播更新码本条目和分配索引，使模型能够将其学习到的表示与压缩约束共同适应。

这与后训练量化有本质区别：后训练量化中量化网格在训练后固定。Pollux的码本是端到端训练的，这意味着模型可以为关键参数分配更多比特，为冗余参数分配更少比特，从而在整个网络中实现可变比特率。报告中的0.76比特平均值是加权均值——某些层可能使用1比特或2比特表示，而其他层则降至0.5比特或更低。

基准性能

Pollux团队的初步基准测试（独家分享给AINews）显示，尽管压缩极端，NVQ仍保持了显著的准确性。下表将Pollux（7B，0.76比特）与标准FP16 7B模型以及最先进的4比特后训练量化模型（使用GPTQ）在标准NLP任务上进行了比较：

| 模型 | 平均比特/参数 | MMLU（5-shot） | HellaSwag（10-shot） | WikiText-2困惑度 | 模型大小（GB） |
|---|---|---|---|---|---|
| LLaMA-2 7B（FP16） | 16 | 45.3% | 77.2% | 5.47 | 13.5 |
| LLaMA-2 7B（GPTQ 4-bit） | 4 | 44.8% | 76.5% | 5.52 | 3.4 |
| Pollux 7B（NVQ） | 0.76 | 43.1% | 74.9% | 5.89 | 0.68 |

数据要点： 与FP16基线相比，Pollux在MMLU上仅损失约2.2%，在HellaSwag上损失约2.3%，同时实现了相对于FP16的20倍尺寸缩减和相对于4比特后训练量化的5倍缩减。困惑度增加0.42并非微不足道，但考虑到压缩比，这一增加非常小。这表明NVQ不仅仅是一种压缩技巧，而是一种真正的学习策略，能够保留语义结构。

开源仓库

Pollux团队已在GitHub上发布了核心训练框架，仓库名为`pollux-nvq/native-vq-llm`（目前获得2300颗星）。该仓库包含码本初始化例程、离散分配步骤的梯度近似（使用直通估计器）以及用于高效码本查找的自定义CUDA内核。团队还提供了1B和7B模型的预训练检查点，以及一个量化感知微调脚本，允许用户将模型适应新领域而不会丢失压缩表示。

关键参与者与案例研究

Pollux由剑桥大学和Vector Institute的研究团队开发，由前Google Brain研究员Elena Vasquez博士领导，她此前曾从事TPU的量化感知训练工作。该项目获得了包括Samsung NEXT和Qualcomm Ventures在内的财团的种子资金，这表明移动和边缘硬件生态系统的强烈兴趣。

比较格局

为了理解Pollux的定位，将其与其他压缩方法进行比较会有所帮助：

| 方法 | 典型位宽 | 需要训练？ | 与FP16相比的准确性（MMLU） | 用例 |
|---|---|---|---|---|
| FP16（基线） | 16 | 否 | 100% | 云服务器 |
| INT8（后训练量化） | 8 | 否 | -1%至-2% | 云端推理 |
| INT4（GPTQ/AWQ） | 4 | 否（仅校准） | -2%至-5% | 边缘服务器 |
| INT2（GPTQ + 组大小） | 2 | 否 | -5%至-10% | 专用硬件 |
| 二进制/三进制（BitNet） | 1.58 | 是（从头开始） | -10%至-15% | 超低功耗 |
| Pollux NVQ | 0.76 | 是（从头开始） | -2.2% | 移动/IoT |

数据要点： Pollux占据了一个独特的位置——它使用不到一半的比特数，却实现了比2比特后训练量化方法更好的准确性。代价是需要从头开始训练，计算成本高昂。然而，对于模型大小是主要约束的部署场景（例如运行个人助理的智能手表），前期训练成本很容易在数百万台设备上摊销。

案例研究：三星Galaxy集成

三星已宣布试点计划，将1B参数的Pollux变体集成到其Galaxy S26系列中，用于设备端文本摘要和智能回复。早期测试显示，在Snapdragon 8 Gen 4 NPU上推理延迟为12毫秒，内存占用仅为95MB。这相比传统方案实现了40倍的效率提升。

时间归档

常见问题

这次模型发布“Pollux Native Vector Quantization: 0.76-Bit Parameters Redefine Model Compression Limits”的核心内容是什么？

In a development that could reshape the entire AI deployment landscape, Pollux has demonstrated that large language models can be compressed far beyond the limits of traditional po…

从“Pollux 0.76-bit compression benchmark vs GPTQ”看，这个模型发布为什么重要？

Pollux’s core innovation lies in its native vector quantization (NVQ) framework. Unlike conventional post-training quantization (PTQ) methods—such as GPTQ, AWQ, or GGML—which take a fully trained model and reduce the bit…

围绕“Pollux native vector quantization training cost”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。