Pollux原生向量量化:0.76比特参数重新定义模型压缩极限

Hacker News July 2026
来源:Hacker Newsmodel compressionedge AIlarge language model归档:July 2026
全新大语言模型Pollux通过原生向量量化技术,将7B参数模型从14GB压缩至仅700MB,实现每参数0.76比特的惊人压缩率。这一由AINews独家报道的突破,有望将强大语言模型带入智能手机和边缘设备,彻底摆脱云端依赖。

在一项可能重塑AI部署格局的进展中,Pollux证明了大语言模型可以被压缩到远超传统后训练量化的极限。通过将向量量化直接嵌入训练过程——而非事后追加——Pollux实现了前所未有的每参数0.76比特。这意味着一个通常占用14GB(16位浮点)的70亿参数模型,现在仅需约700MB存储。其影响深远:高质量语言模型很快就能完全离线运行于智能手机、汽车系统和物联网设备上,消除延迟、隐私顾虑和云端成本。Pollux的方法标志着一种新的设计哲学:压缩不再是事后补救,而是从训练之初就融入模型核心。

技术深度解析

Pollux的核心创新在于其原生向量量化(NVQ)框架。与传统的后训练量化方法——如GPTQ、AWQ或GGML——不同,后者是在模型完全训练后降低权重的位宽(例如从FP16降至INT4或INT2),Pollux从训练的第一步就将量化集成到训练循环中。模型学习将其参数表示为学习到的码本中的紧凑向量,而非独立的标量值。

NVQ的工作原理

Pollux的核心是用乘积量化方案替代每个权重矩阵。权重矩阵被分割成子向量,每个子向量被分配一个指向共享码本的索引。在前向传播过程中,模型从码本中检索最近的质心并用于计算。梯度反向传播更新码本条目和分配索引,使模型能够将其学习到的表示与压缩约束共同适应。

这与后训练量化有本质区别:后训练量化中量化网格在训练后固定。Pollux的码本是端到端训练的,这意味着模型可以为关键参数分配更多比特,为冗余参数分配更少比特,从而在整个网络中实现可变比特率。报告中的0.76比特平均值是加权均值——某些层可能使用1比特或2比特表示,而其他层则降至0.5比特或更低。

基准性能

Pollux团队的初步基准测试(独家分享给AINews)显示,尽管压缩极端,NVQ仍保持了显著的准确性。下表将Pollux(7B,0.76比特)与标准FP16 7B模型以及最先进的4比特后训练量化模型(使用GPTQ)在标准NLP任务上进行了比较:

| 模型 | 平均比特/参数 | MMLU(5-shot) | HellaSwag(10-shot) | WikiText-2困惑度 | 模型大小(GB) |
|---|---|---|---|---|---|
| LLaMA-2 7B(FP16) | 16 | 45.3% | 77.2% | 5.47 | 13.5 |
| LLaMA-2 7B(GPTQ 4-bit) | 4 | 44.8% | 76.5% | 5.52 | 3.4 |
| Pollux 7B(NVQ) | 0.76 | 43.1% | 74.9% | 5.89 | 0.68 |

数据要点: 与FP16基线相比,Pollux在MMLU上仅损失约2.2%,在HellaSwag上损失约2.3%,同时实现了相对于FP16的20倍尺寸缩减和相对于4比特后训练量化的5倍缩减。困惑度增加0.42并非微不足道,但考虑到压缩比,这一增加非常小。这表明NVQ不仅仅是一种压缩技巧,而是一种真正的学习策略,能够保留语义结构。

开源仓库

Pollux团队已在GitHub上发布了核心训练框架,仓库名为`pollux-nvq/native-vq-llm`(目前获得2300颗星)。该仓库包含码本初始化例程、离散分配步骤的梯度近似(使用直通估计器)以及用于高效码本查找的自定义CUDA内核。团队还提供了1B和7B模型的预训练检查点,以及一个量化感知微调脚本,允许用户将模型适应新领域而不会丢失压缩表示。

关键参与者与案例研究

Pollux由剑桥大学和Vector Institute的研究团队开发,由前Google Brain研究员Elena Vasquez博士领导,她此前曾从事TPU的量化感知训练工作。该项目获得了包括Samsung NEXT和Qualcomm Ventures在内的财团的种子资金,这表明移动和边缘硬件生态系统的强烈兴趣。

比较格局

为了理解Pollux的定位,将其与其他压缩方法进行比较会有所帮助:

| 方法 | 典型位宽 | 需要训练? | 与FP16相比的准确性(MMLU) | 用例 |
|---|---|---|---|---|
| FP16(基线) | 16 | 否 | 100% | 云服务器 |
| INT8(后训练量化) | 8 | 否 | -1%至-2% | 云端推理 |
| INT4(GPTQ/AWQ) | 4 | 否(仅校准) | -2%至-5% | 边缘服务器 |
| INT2(GPTQ + 组大小) | 2 | 否 | -5%至-10% | 专用硬件 |
| 二进制/三进制(BitNet) | 1.58 | 是(从头开始) | -10%至-15% | 超低功耗 |
| Pollux NVQ | 0.76 | 是(从头开始) | -2.2% | 移动/IoT |

数据要点: Pollux占据了一个独特的位置——它使用不到一半的比特数,却实现了比2比特后训练量化方法更好的准确性。代价是需要从头开始训练,计算成本高昂。然而,对于模型大小是主要约束的部署场景(例如运行个人助理的智能手表),前期训练成本很容易在数百万台设备上摊销。

案例研究:三星Galaxy集成

三星已宣布试点计划,将1B参数的Pollux变体集成到其Galaxy S26系列中,用于设备端文本摘要和智能回复。早期测试显示,在Snapdragon 8 Gen 4 NPU上推理延迟为12毫秒,内存占用仅为95MB。这相比传统方案实现了40倍的效率提升。

更多来自 Hacker News

一次API调用,Parsewise将文档秒变结构化数据Parsewise正在重新定义企业与非结构化数据的交互方式。开发者不再需要将文档逐一喂给聊天机器人,而是通过一次API调用发送整个文档批次,接收符合预定义模式的JSON结构化输出。每个提取的值都附带可追溯的来源——精确到原始文档、页码和行号Ox AI Agent:在代码提交前拦截技术债,将软件质量左移技术债务长期以来一直是软件速度的无声杀手——它是对未来开发的一种税赋,悄无声息地复利增长,直到代码库变得不可维护。传统方法依赖事后检测:linter标记风格问题,SonarQube在合并后运行,专门的重构冲刺被安排在数月之后。由前IBM工程数据库觉醒:人类与AI智能体共生的数据层革命数据库作为沉默、静态存储库的时代正在终结。随着AI智能体开始自主执行复杂的多步骤任务,传统SQL系统的局限性已暴露无遗:它们擅长精确匹配查找,却在语义理解、上下文关联和动态意图解析方面力不从心。AINews观察到一场深层的架构重构正在展开。查看来源专题页Hacker News 已收录 5503 篇文章

相关专题

model compression40 篇相关文章edge AI134 篇相关文章large language model91 篇相关文章

时间归档

July 202676 篇已发布文章

延伸阅读

边缘AI代理:重塑企业智能的“服务器大迁徙”企业AI代理正从集中式服务器大规模迁移至边缘设备——智能手机、工业传感器与车载系统——实现低于100毫秒的延迟、铁壁般的隐私保护与实时自主决策。AINews深入剖析技术催化剂、市场剧变,以及将定义未来十年企业AI的未解协调难题。小米将AI推理成本砍掉99%:云端依赖型智能手机的终结小米在旗舰手机上运行大语言模型的成本实现了惊人的99%降幅,将实时离线生成式AI从遥远的承诺变为即刻的现实。这一突破基于激进的模型压缩与自研推理引擎,标志着AI算力从云端向终端迁移的决定性转折。Nano Browser LLM:边缘AI如何重写语言模型的游戏规则Nano Browser LLM 实现了一个曾被普遍认为不可能的目标:在标准笔记本电脑的浏览器中,完全无需云端后端,运行一个功能完备的语言模型。这标志着边缘计算在AI领域的一个关键时刻,预示着离线、私密且即时响应的智能交互即将成为现实。20年前的PSP跑LLM:边缘AI硬件底线的终极重定义一位开发者完成了看似不可能的任务:在2004年发布的索尼PSP上运行功能型大语言模型——仅32MB内存、333MHz处理器。这不是复古情怀,而是一次激进的证明:极端模型压缩能让AI民主化至几十美元的设备,彻底挑战云端依赖的教条。

常见问题

这次模型发布“Pollux Native Vector Quantization: 0.76-Bit Parameters Redefine Model Compression Limits”的核心内容是什么?

In a development that could reshape the entire AI deployment landscape, Pollux has demonstrated that large language models can be compressed far beyond the limits of traditional po…

从“Pollux 0.76-bit compression benchmark vs GPTQ”看,这个模型发布为什么重要?

Pollux’s core innovation lies in its native vector quantization (NVQ) framework. Unlike conventional post-training quantization (PTQ) methods—such as GPTQ, AWQ, or GGML—which take a fully trained model and reduce the bit…

围绕“Pollux native vector quantization training cost”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。