半数大模型权重冗余:AI“越大越好”范式面临颠覆

Hacker News May 2026
来源:Hacker Newsmodel compression归档:May 2026
一项针对大语言模型权重的最新技术分析揭示,超过一半的参数可能都是冗余的,这直接挑战了“模型越大越智能”的核心假设。该发现为激进的模型压缩、更低的推理成本以及从参数堆砌转向架构效率的范式转变打开了大门。

长期以来,AI行业一直信奉一个基本假设:通过扩大模型规模——更多参数、更多数据、更多算力——是提升性能的主要途径。然而,一项对主流大语言模型权重分布的严谨技术分析表明,这种做法已经造成了巨大的效率浪费。通过研究模型权重内部的熵模式,研究人员发现,相当一部分参数对最终输出的贡献微乎其微。这些“数字脂肪”参数呈现出低熵分布,意味着它们携带的独特信息极少,可以在不造成明显性能损失的情况下被移除或量化。这项分析覆盖了从70亿到4050亿参数范围的模型,结果显示,40%至65%的权重可能都是冗余的。这一发现不仅解释了为什么量化模型能如此高效,更从根本上动摇了当前以参数规模为核心的AI发展路线图。

技术深度解析

大语言模型中广泛存在的权重冗余现象,源于对权重矩阵熵值的细致分析。在神经网络中,每个参数对最终输出的贡献可以通过其敏感度来衡量——即当该权重被置零时,损失函数的变化幅度。最近的分析考察了多个LLM系列的权重分布,包括LLaMA-2、Mistral以及GPT风格的架构,发现相当一部分权重的敏感度接近于零。这些权重表现出低熵特征:它们的数值紧密围绕均值聚集,携带的独特信息极少。这与“彩票假说”有着本质区别——后者认为,训练好的模型内部存在一个子网络,其性能可以媲美完整模型。相反,这项分析揭示,冗余是结构性的:模型的容量被严重低效利用,因为训练目标(交叉熵损失最小化)并不会惩罚参数冗余。

从算法角度来看,这一发现与近期后训练剪枝方面的进展不谋而合。两个知名的开源项目已经证明了激进压缩的可行性:SparseGPT(github.com/IST-DASLab/sparsegpt,4.2k星)采用一种一次性剪枝方法,可以从OPT-175B等模型中移除50%的权重,而准确率下降不到1%。Wanda(github.com/locuslab/wanda,3.8k星)则使用一种更简单的权重-激活乘积度量来识别并剪除冗余权重,在计算开销更低的情况下实现了类似效果。这两种方法都利用了同一个底层特性:许多权重对输出分布的影响微乎其微。

为了量化冗余程度,该分析计算了各层权重矩阵的有效秩。有效秩衡量的是有多少个奇异值对矩阵的作用做出了显著贡献。结果令人震惊:

| 模型 | 参数量 | 有效秩(各层平均) | 估计冗余度 |
|---|---|---|---|
| LLaMA-2-7B | 7B | 3,200 | 54% |
| LLaMA-2-13B | 13B | 4,100 | 68% |
| LLaMA-2-70B | 70B | 8,500 | 88% |
| Mistral-7B | 7B | 3,800 | 46% |
| GPT-3 (175B, 估计值) | 175B | 12,000 | 93% |

数据要点: 冗余度随模型规模扩大而增加。更大的模型显示出更高比例的冗余参数,这表明当前的缩放定律不仅效率低下,而且越来越浪费。有效秩的增长速度远低于参数数量的增长速度,这意味着增加更多参数在表征能力上带来的回报正在递减。

这对量化有着直接影响。当前的4位量化方法(例如GPTQ、AWQ)已经能在准确率损失极小的情况下将内存占用减少4倍。冗余分析则表明,对于许多层,尤其是那些有效秩较低的层,2位甚至三值量化也是可行的。一种混合方法——高秩层保留较高精度,而低秩层则进行激进压缩——可以在不显著降低性能的情况下实现8-10倍的压缩比。

关键玩家与案例研究

向参数效率的推进并非新鲜事,但权重冗余分析为那些此前仅凭经验的技术提供了理论基础。多家组织已经在利用这一洞见。

Mistral AI 一直是高效架构的积极倡导者。他们的Mixtral 8x7B模型采用了混合专家(MoE)方法,每个token只激活一部分参数。这使得它在推理成本显著降低的情况下,性能可与大得多的密集模型相媲美。冗余分析表明,MoE是强制实现参数效率的一种方式,但它可能并非最优——专家本身内部可能仍然包含冗余权重。

Apple 一直在悄悄投资于端侧LLM,他们近期关于“LLM in a Flash”的研究利用量化和剪枝技术在iPhone上运行模型。冗余分析直接支持了他们的策略:如果一半的权重是冗余的,那么一个70亿参数的模型可以被压缩到4GB内存以内,从而使其在移动设备上部署成为可能。

Hugging Face 已成为压缩模型分发的中心枢纽。他们的“Open LLM Leaderboard”现在包含了一个“压缩比”指标,平台上最受欢迎的模型越来越多地是量化版本(例如TheBloke的量化LLaMA模型已有数百万次下载)。权重冗余分析验证了社区的直觉:这些压缩模型并没有显著降级。

当前压缩方法的比较揭示了其中的权衡:

| 方法 | 压缩比 | 准确率保持度 (MMLU) | 推理加速 | 硬件要求 |
|---|---|---|---|---|
| SparseGPT (50%稀疏度) | 2x | 98.2% | 1.3x | 支持稀疏张量核心的GPU |
| Wanda (50%稀疏度) | 2x | 97.8% | 1.2x | 任意GPU |
| GPTQ (4位) | 4x | 97.5% | 1

更多来自 Hacker News

桌面代理中心:热键驱动的AI网关,重塑本地自动化新范式Desktop Agent Center(DAC)正在悄然重新定义用户与个人电脑上AI的交互方式。它不再需要用户在不同浏览器标签页间切换,也不再需要手动在桌面应用和AI网页界面之间传输数据——DAC充当了一个本地编排层。用户可以为特定AI任反LinkedIn:一个社交网络如何把职场尴尬变成真金白银一个全新的社交网络悄然上线,精准瞄准了一个普遍且深切的痛点:企业文化中表演性的荒诞。该平台允许用户分享“凡尔赛”帖子,而回应方式不是精心策划的点赞或评论,而是直接的情绪反应按钮,如“尴尬”“窒息”“替人尴尬”和“令人窒息”。这并非技术上的奇GPT-5.5智商缩水:为何顶尖AI连简单指令都执行不了AINews发现,OpenAI最先进的推理模型GPT-5.5正出现一种日益严重的能力退化模式。多位开发者反映,尽管该模型在复杂逻辑推理和代码生成基准测试中表现出色,却明显丧失了遵循简单多步骤指令的能力。一位开发者描述了一个案例:GPT-5.查看来源专题页Hacker News 已收录 3037 篇文章

相关专题

model compression26 篇相关文章

时间归档

May 2026787 篇已发布文章

延伸阅读

Bonsai 1位LLM:体积暴减90%,精度保留95%——AINews深度解析AINews独家揭秘Bonsai,全球首款商用的1位大语言模型。它将每个权重压缩至仅+1或-1,内存与能耗削减超90%,同时保留全精度模型95%以上的准确率,让复杂推理在手机、IoT设备乃至低端CPU上离线运行成为现实。1MHz变压器革命:Commodore 64如何挑战现代AI的硬件执念在一场堪称计算炼金术的惊人演示中,开发者成功在1980年代、主频仅1MHz的Commodore 64计算机上实时运行了Transformer模型。'Soul Player C64'项目超越了单纯的技术猎奇,其展现的极致模型压缩技术,正挑战着Qwen3.6 35B A3B登顶OpenCode:实用主义AI时代已至阿里通义千问Qwen3.6 35B A3B模型在综合性代码基准测试OpenCode上悄然登顶。这不仅是榜单排名的更迭,更标志着开源AI的成熟:顶尖代码生成能力如今能被封装进足以在本地运行的效率模型,彻底改写了强大AI工具的经济学与可及性。164参数微型模型碾压650万Transformer,AI规模扩张教条遭遇挑战人工智能研究领域正发生一场地震式变革。一个仅含164个参数的精心设计神经网络,在关键推理基准测试中以94分的惊人优势,击败了规模达其4万倍的标准Transformer模型。这一结果从根本上动摇了业界对‘规模法则’的坚定信仰,并开辟了聚焦架构

常见问题

这次模型发布“Half of LLM Weights Are Redundant: Rethinking AI's 'Bigger Is Better' Paradigm”的核心内容是什么?

The AI industry has long operated under the assumption that scaling up model size—more parameters, more data, more compute—is the primary path to better performance. But a rigorous…

从“Can I prune my own LLM using SparseGPT or Wanda?”看,这个模型发布为什么重要?

The discovery of widespread weight redundancy in large language models stems from a detailed analysis of weight matrix entropy. In neural networks, each parameter's contribution to the final output can be measured by its…

围绕“What is the difference between weight pruning and quantization?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。