半数大模型权重冗余:AI“越大越好”范式面临颠覆

Hacker News May 2026
来源:Hacker Newsmodel compression归档:May 2026
一项针对大语言模型权重的最新技术分析揭示,超过一半的参数可能都是冗余的,这直接挑战了“模型越大越智能”的核心假设。该发现为激进的模型压缩、更低的推理成本以及从参数堆砌转向架构效率的范式转变打开了大门。

长期以来,AI行业一直信奉一个基本假设:通过扩大模型规模——更多参数、更多数据、更多算力——是提升性能的主要途径。然而,一项对主流大语言模型权重分布的严谨技术分析表明,这种做法已经造成了巨大的效率浪费。通过研究模型权重内部的熵模式,研究人员发现,相当一部分参数对最终输出的贡献微乎其微。这些“数字脂肪”参数呈现出低熵分布,意味着它们携带的独特信息极少,可以在不造成明显性能损失的情况下被移除或量化。这项分析覆盖了从70亿到4050亿参数范围的模型,结果显示,40%至65%的权重可能都是冗余的。这一发现不仅解释了为什么量化模型能如此高效,更从根本上动摇了当前以参数规模为核心的AI发展路线图。

技术深度解析

大语言模型中广泛存在的权重冗余现象,源于对权重矩阵熵值的细致分析。在神经网络中,每个参数对最终输出的贡献可以通过其敏感度来衡量——即当该权重被置零时,损失函数的变化幅度。最近的分析考察了多个LLM系列的权重分布,包括LLaMA-2、Mistral以及GPT风格的架构,发现相当一部分权重的敏感度接近于零。这些权重表现出低熵特征:它们的数值紧密围绕均值聚集,携带的独特信息极少。这与“彩票假说”有着本质区别——后者认为,训练好的模型内部存在一个子网络,其性能可以媲美完整模型。相反,这项分析揭示,冗余是结构性的:模型的容量被严重低效利用,因为训练目标(交叉熵损失最小化)并不会惩罚参数冗余。

从算法角度来看,这一发现与近期后训练剪枝方面的进展不谋而合。两个知名的开源项目已经证明了激进压缩的可行性:SparseGPT(github.com/IST-DASLab/sparsegpt,4.2k星)采用一种一次性剪枝方法,可以从OPT-175B等模型中移除50%的权重,而准确率下降不到1%。Wanda(github.com/locuslab/wanda,3.8k星)则使用一种更简单的权重-激活乘积度量来识别并剪除冗余权重,在计算开销更低的情况下实现了类似效果。这两种方法都利用了同一个底层特性:许多权重对输出分布的影响微乎其微。

为了量化冗余程度,该分析计算了各层权重矩阵的有效秩。有效秩衡量的是有多少个奇异值对矩阵的作用做出了显著贡献。结果令人震惊:

| 模型 | 参数量 | 有效秩(各层平均) | 估计冗余度 |
|---|---|---|---|
| LLaMA-2-7B | 7B | 3,200 | 54% |
| LLaMA-2-13B | 13B | 4,100 | 68% |
| LLaMA-2-70B | 70B | 8,500 | 88% |
| Mistral-7B | 7B | 3,800 | 46% |
| GPT-3 (175B, 估计值) | 175B | 12,000 | 93% |

数据要点: 冗余度随模型规模扩大而增加。更大的模型显示出更高比例的冗余参数,这表明当前的缩放定律不仅效率低下,而且越来越浪费。有效秩的增长速度远低于参数数量的增长速度,这意味着增加更多参数在表征能力上带来的回报正在递减。

这对量化有着直接影响。当前的4位量化方法(例如GPTQ、AWQ)已经能在准确率损失极小的情况下将内存占用减少4倍。冗余分析则表明,对于许多层,尤其是那些有效秩较低的层,2位甚至三值量化也是可行的。一种混合方法——高秩层保留较高精度,而低秩层则进行激进压缩——可以在不显著降低性能的情况下实现8-10倍的压缩比。

关键玩家与案例研究

向参数效率的推进并非新鲜事,但权重冗余分析为那些此前仅凭经验的技术提供了理论基础。多家组织已经在利用这一洞见。

Mistral AI 一直是高效架构的积极倡导者。他们的Mixtral 8x7B模型采用了混合专家(MoE)方法,每个token只激活一部分参数。这使得它在推理成本显著降低的情况下,性能可与大得多的密集模型相媲美。冗余分析表明,MoE是强制实现参数效率的一种方式,但它可能并非最优——专家本身内部可能仍然包含冗余权重。

Apple 一直在悄悄投资于端侧LLM,他们近期关于“LLM in a Flash”的研究利用量化和剪枝技术在iPhone上运行模型。冗余分析直接支持了他们的策略:如果一半的权重是冗余的,那么一个70亿参数的模型可以被压缩到4GB内存以内,从而使其在移动设备上部署成为可能。

Hugging Face 已成为压缩模型分发的中心枢纽。他们的“Open LLM Leaderboard”现在包含了一个“压缩比”指标,平台上最受欢迎的模型越来越多地是量化版本(例如TheBloke的量化LLaMA模型已有数百万次下载)。权重冗余分析验证了社区的直觉:这些压缩模型并没有显著降级。

当前压缩方法的比较揭示了其中的权衡:

| 方法 | 压缩比 | 准确率保持度 (MMLU) | 推理加速 | 硬件要求 |
|---|---|---|---|---|
| SparseGPT (50%稀疏度) | 2x | 98.2% | 1.3x | 支持稀疏张量核心的GPU |
| Wanda (50%稀疏度) | 2x | 97.8% | 1.2x | 任意GPU |
| GPTQ (4位) | 4x | 97.5% | 1

更多来自 Hacker News

两行代码砍掉四成成本:Tokoscope 让大模型 Token 压缩自动化无节制 AI 开支的时代或许正在终结。AINews 获悉,Tokoscope 是一款轻量级中间件,可自动压缩大语言模型调用中的 Token 用量,早期测试显示成本降低高达 40%,且不牺牲输出质量。该工具仅需两行代码即可集成——一行包装 A本地LLM硬件计算器:架起AI软件与消费级硬件的桥梁“本地LLM硬件计算器”已成为开源AI生态系统中一个意想不到但至关重要的实用工具。其核心功能出奇地简单:用户输入自己的硬件规格——GPU型号、显存、系统内存和CPU——该工具便会将这些信息与Llama 3、Mistral、Qwen、GemmAI教AI:递归式智能体课程开启教育新纪元《智能体系统》课程以开源项目形式发布,是一场关于AI成熟度的自我验证实验。一个基于大型语言模型(LLM)、集成代码执行与记忆功能的AI编码智能体,独立完成了课程设计、代码生成与实时问答。这种递归式教学循环意味着,课程能够根据学生反馈调整讲解查看来源专题页Hacker News 已收录 5010 篇文章

相关专题

model compression36 篇相关文章

时间归档

May 20263028 篇已发布文章

延伸阅读

小模型,大影响:微调微型LLM如何挑战云端巨头一项全新的本地AI实验表明,在笔记本电脑上微调一个极小的语言模型,就能在问题分类等结构化任务上与云端巨头一较高下。这挑战了“只有大模型才能处理复杂语义”的主流教条,为在边缘设备上实现保护隐私、成本高效的AI打开了大门。GPT-5 Nano安全漏洞曝光:AI压缩的隐性代价OpenAI的GPT-5 Nano以闪电般的推理速度和极低的资源消耗著称,但我们的独家漏洞测试揭示了一个令人不安的权衡:压缩后的模型在提示注入和上下文投毒攻击面前,远比其完整版脆弱。企业用户正面临效率与安全的残酷抉择。边缘AI代理:重塑企业智能的“服务器大迁徙”企业AI代理正从集中式服务器大规模迁移至边缘设备——智能手机、工业传感器与车载系统——实现低于100毫秒的延迟、铁壁般的隐私保护与实时自主决策。AINews深入剖析技术催化剂、市场剧变,以及将定义未来十年企业AI的未解协调难题。24GB显存天花板:8位量化如何重塑本地AI模型格局一位开发者直言“4位量化在生产中不可用”,瞬间引爆了精度与内存之间的激烈辩论。24GB显存天花板正迫使模型架构进化,以Qwopus 3.6-27B-v2-MTP为代表的8位量化模型异军突起,重新定义了本地AI“生产就绪”的标准。

常见问题

这次模型发布“Half of LLM Weights Are Redundant: Rethinking AI's 'Bigger Is Better' Paradigm”的核心内容是什么?

The AI industry has long operated under the assumption that scaling up model size—more parameters, more data, more compute—is the primary path to better performance. But a rigorous…

从“Can I prune my own LLM using SparseGPT or Wanda?”看,这个模型发布为什么重要?

The discovery of widespread weight redundancy in large language models stems from a detailed analysis of weight matrix entropy. In neural networks, each parameter's contribution to the final output can be measured by its…

围绕“What is the difference between weight pruning and quantization?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。