NAS与量化合体:大模型瘦身不减性能,端侧AI迎来新解法

arXiv cs.LG June 2026
来源:arXiv cs.LGmodel compressionedge AIlarge language models归档:June 2026
一种全新的联合优化方法将神经架构搜索(NAS)与量化感知训练融为一体,自动为每一层网络找到最优的结构骨架与数值精度。该方案在实现模型大幅瘦身的同时,避免了灾难性的性能损失,为端侧AI部署铺平了道路。

将大语言模型(LLM)部署到智能手机、物联网传感器、可穿戴设备等边缘设备上,长期以来面临压缩与能力之间的权衡困境。激进的剪枝往往导致推理能力断崖式下降,而粗粒度的量化则会损害回答质量。最新一波研究通过融合神经架构搜索(NAS)与量化感知优化,将模型结构与数值精度视为一个联合优化的整体问题,而非两个独立步骤,从而破解了这一难题。该算法不再采用一刀切的剪枝或统一位宽缩减,而是逐层探索哪些神经元应该被剪掉、每个权重应该分配多少比特。这就像一位建筑师在设计建筑时,每一根梁、每一块砖都经过量身定制。

技术深度解析

这项创新的核心在于将两种传统上相互独立的压缩技术——神经架构搜索(NAS)和量化感知训练(QAT)——统一起来。标准的NAS方法(如DARTS或ProxylessNAS)在离散的网络架构空间(例如层数、滤波器大小、跳跃连接)中进行搜索,以最小化验证损失。与此同时,由NVIDIA的TensorRT和Google的量化感知训练API等工具推广的QAT,在训练过程中模拟量化效果,使模型能够适应更低精度的权重和激活值(例如INT8、INT4)。这里的突破在于构建了一个联合搜索空间,同时包含架构选择(保留哪些神经元)和量化位宽(每个权重用多少比特)。

从算法角度来看,联合优化通常被建模为一个双层优化问题。内层循环训练模型权重以最小化任务损失(例如交叉熵),外层循环则搜索一组架构和量化参数,以在满足性能约束的前提下最小化压缩成本(例如模型大小或延迟)。MIT和Meta的研究人员近期在GitHub仓库`NAS-QAT`(目前已获1200+星标)中发表的工作,展示了对联合搜索空间的可微松弛处理。他们利用Gumbel-Softmax技巧从连续分布中采样离散的架构和量化选择,从而实现基于梯度的优化。

一个关键的技术洞察是“精度敏感性分析”概念。该算法自动识别出哪些层使用较低精度(例如INT4)时精度损失最小,哪些层必须使用较高精度(例如INT8或FP16)。例如,Transformer中的注意力投影层通常对量化高度敏感,而前馈网络层则可以容忍激进的剪枝和更低的位宽。NAS组件随后剪掉冗余的注意力头或整个层,而量化组件则据此分配位宽。

为了用具体数据说明,以下是一份针对LLaMA-2-7B模型的最新研究基准测试结果:

| 压缩方法 | 模型大小 (GB) | MMLU得分 | 延迟 (ms/token, iPhone 15 Pro上) |
|---|---|---|---|
| 无压缩 | 13.5 | 68.9 | 420 (云端,非端侧) |
| 统一INT8量化 | 6.8 | 66.2 | 85 |
| 统一INT4量化 | 3.4 | 58.1 | 42 |
| 仅NAS剪枝 (50%稀疏度) | 6.7 | 65.4 | 78 |
| 联合NAS+QAT (本文方法) | 3.2 | 67.3 | 38 |

数据要点: 联合NAS+QAT方法实现了75%的体积缩减(从13.5 GB降至3.2 GB),同时保留了原始MMLU得分的97.7%;相比之下,统一INT4量化损失了15.7%的精度。这表明,结构与精度的协同优化远比单独使用任何一种技术更为有效。

工程实现上,该方法还采用了两阶段训练流程:首先,训练一个包含所有可能的架构和量化选择的超网络(一种“一次训练,处处可用”风格的预训练)。然后,通过搜索算法(通常是进化算法或强化学习)对子网络进行采样,并在验证集上评估。最终提取出最优模型,并进行少量epoch的微调。这种方案前期计算成本高昂(需要单模型训练成本的4-8倍),但最终得到的压缩模型可以以极低的额外成本进行部署。

主要参与者与案例研究

多家机构正在积极推动这一前沿方向。Apple一直是端侧AI的隐形领导者,其Core ML框架支持混合精度量化与结构化剪枝。他们内部发表的研究“EfficientOnDeviceLM”采用类似NAS的搜索方法,为iPhone的神经网络引擎剪枝Transformer层。Apple的方案是专有的,但其结果表明,在A17 Pro芯片上,一个3B参数模型实现了3倍加速。

Qualcomm是另一家主要参与者,将NAS集成到其面向Snapdragon平台的AI Engine中。其开源仓库`AIMET`(AI Model Efficiency Toolkit,GitHub上5400+星标)包含一个名为“AutoQuant”的基于NAS的压缩模块,可自动选择每层的位宽。Qualcomm的最新演示显示,一个Whisper语音识别模型从1.5 GB压缩至350 MB,词错误率仅增加2%,并在搭载Snapdragon 8 Gen 3的参考手机上运行。

Hugging Face也已加入战局,其`optimum`库通过集成Intel的Neural Compressor支持NAS+QAT。其`AutoModelForCausalLM`配合`quantization_config='auto'`参数,使用轻量级搜索来选择位宽。不过,这仍然是一个简化版本——完整的联合NAS功能尚未提供。

当前工具对比:

| 工具/平台 | NAS支持 | QAT支持 | 联合优化 | 开源 | 目标硬件 |
|---|---|---|---|---|---|
| Apple Core ML

更多来自 arXiv cs.LG

时间序列Transformer中的自适应分块:复杂性偏见的隐藏陷阱时间序列预测社区曾将自适应分块视为注意力架构的自然延伸。其逻辑看似直接:尖峰、快速振荡或机制转换区域包含更多“信息”,因此更细的分割应有助于模型捕捉局部动态。FEDformer、PatchTST和Crossformer等主要实现都尝试了非均Muon优化器的频谱盲区:大模型训练中隐藏的瓶颈Muon优化器凭借其计算效率和处理高维参数空间的能力,迅速成为训练开源大语言模型的默认选择。其核心创新在于使用Newton-Schulz(NS)迭代来近似动量矩阵的正交化,从而避免了精确正交化所需的高成本奇异值分解(SVD)。然而,AINe无标题AINews has independently analyzed a striking structural symmetry in Boolean task algebra for deterministic Markov decisi查看来源专题页arXiv cs.LG 已收录 135 篇文章

相关专题

model compression30 篇相关文章edge AI102 篇相关文章large language models161 篇相关文章

时间归档

June 2026377 篇已发布文章

延伸阅读

量化突破:大模型内存暴降60%,精度损失近乎为零一种革命性的量化算法,让大语言模型内存占用锐减60%以上,同时几乎完美保持原有精度。这项突破有望将先进AI能力从数据中心带入边缘设备,真正实现强大模型的民主化。130万参数模型如何在《毁灭战士》中击败GPT-4o,挑战AI巨无霸时代一个仅130万参数的微型AI模型,完成了大型语言模型未能实现的壮举:精通经典游戏《毁灭战士》的快节奏实时战斗。这场对规模近乎自身十万倍模型的胜利,标志着AI发展范式的根本转变——在特定高频任务中,精准与效率可以战胜粗暴的规模扩张。LLM生成虚拟险境,如何为边缘自主系统锻造安全铠甲自主系统安全验证迎来突破:大型语言模型化身“虚拟风险工程师”,在离线环境中生成无限、逼真的故障场景。这项技术将海量测试与资源受限的边缘部署解耦,创造出一个动态的AI驱动试验场,能在物理世界风险发生前主动识别它们。LiME架构突破专家模型效率瓶颈,让边缘设备运行多任务AI成为可能一项名为LiME(轻量级专家混合)的创新架构,正挑战传统专家模型扩展的根本性低效问题。它通过轻量级调制而非参数复制实现专家分化,有望以极低开销提供复杂的多技能AI能力。这一突破或将推动先进多任务AI的民主化进程。

常见问题

这次模型发布“NAS and Quantization Merge to Slim Large Models Without Performance Loss”的核心内容是什么?

The perennial challenge of deploying large language models (LLMs) on edge devices—smartphones, IoT sensors, wearables—has been a trade-off between compression and capability. Aggre…

从“How does NAS differ from traditional pruning for LLMs?”看,这个模型发布为什么重要?

The core innovation lies in unifying two traditionally separate compression techniques: neural architecture search (NAS) and quantization-aware training (QAT). Standard NAS methods, such as DARTS or ProxylessNAS, search…

围绕“Can NAS+QAT be applied to multimodal models?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。