NAS与量化合体：大模型瘦身不减性能，端侧AI迎来新解法

2026年6月5日 16:53 AINews arXiv cs.LG June 2026

来源：arXiv cs.LG model compression edge AI large language models 归档：June 2026

一种全新的联合优化方法将神经架构搜索（NAS）与量化感知训练融为一体，自动为每一层网络找到最优的结构骨架与数值精度。该方案在实现模型大幅瘦身的同时，避免了灾难性的性能损失，为端侧AI部署铺平了道路。

将大语言模型（LLM）部署到智能手机、物联网传感器、可穿戴设备等边缘设备上，长期以来面临压缩与能力之间的权衡困境。激进的剪枝往往导致推理能力断崖式下降，而粗粒度的量化则会损害回答质量。最新一波研究通过融合神经架构搜索（NAS）与量化感知优化，将模型结构与数值精度视为一个联合优化的整体问题，而非两个独立步骤，从而破解了这一难题。该算法不再采用一刀切的剪枝或统一位宽缩减，而是逐层探索哪些神经元应该被剪掉、每个权重应该分配多少比特。这就像一位建筑师在设计建筑时，每一根梁、每一块砖都经过量身定制。

技术深度解析

这项创新的核心在于将两种传统上相互独立的压缩技术——神经架构搜索（NAS）和量化感知训练（QAT）——统一起来。标准的NAS方法（如DARTS或ProxylessNAS）在离散的网络架构空间（例如层数、滤波器大小、跳跃连接）中进行搜索，以最小化验证损失。与此同时，由NVIDIA的TensorRT和Google的量化感知训练API等工具推广的QAT，在训练过程中模拟量化效果，使模型能够适应更低精度的权重和激活值（例如INT8、INT4）。这里的突破在于构建了一个联合搜索空间，同时包含架构选择（保留哪些神经元）和量化位宽（每个权重用多少比特）。

从算法角度来看，联合优化通常被建模为一个双层优化问题。内层循环训练模型权重以最小化任务损失（例如交叉熵），外层循环则搜索一组架构和量化参数，以在满足性能约束的前提下最小化压缩成本（例如模型大小或延迟）。MIT和Meta的研究人员近期在GitHub仓库`NAS-QAT`（目前已获1200+星标）中发表的工作，展示了对联合搜索空间的可微松弛处理。他们利用Gumbel-Softmax技巧从连续分布中采样离散的架构和量化选择，从而实现基于梯度的优化。

一个关键的技术洞察是“精度敏感性分析”概念。该算法自动识别出哪些层使用较低精度（例如INT4）时精度损失最小，哪些层必须使用较高精度（例如INT8或FP16）。例如，Transformer中的注意力投影层通常对量化高度敏感，而前馈网络层则可以容忍激进的剪枝和更低的位宽。NAS组件随后剪掉冗余的注意力头或整个层，而量化组件则据此分配位宽。

为了用具体数据说明，以下是一份针对LLaMA-2-7B模型的最新研究基准测试结果：

| 压缩方法 | 模型大小 (GB) | MMLU得分 | 延迟 (ms/token, iPhone 15 Pro上) |
|---|---|---|---|
| 无压缩 | 13.5 | 68.9 | 420 (云端，非端侧) |
| 统一INT8量化 | 6.8 | 66.2 | 85 |
| 统一INT4量化 | 3.4 | 58.1 | 42 |
| 仅NAS剪枝 (50%稀疏度) | 6.7 | 65.4 | 78 |
| 联合NAS+QAT (本文方法) | 3.2 | 67.3 | 38 |

数据要点： 联合NAS+QAT方法实现了75%的体积缩减（从13.5 GB降至3.2 GB），同时保留了原始MMLU得分的97.7%；相比之下，统一INT4量化损失了15.7%的精度。这表明，结构与精度的协同优化远比单独使用任何一种技术更为有效。

工程实现上，该方法还采用了两阶段训练流程：首先，训练一个包含所有可能的架构和量化选择的超网络（一种“一次训练，处处可用”风格的预训练）。然后，通过搜索算法（通常是进化算法或强化学习）对子网络进行采样，并在验证集上评估。最终提取出最优模型，并进行少量epoch的微调。这种方案前期计算成本高昂（需要单模型训练成本的4-8倍），但最终得到的压缩模型可以以极低的额外成本进行部署。

主要参与者与案例研究

多家机构正在积极推动这一前沿方向。Apple一直是端侧AI的隐形领导者，其Core ML框架支持混合精度量化与结构化剪枝。他们内部发表的研究“EfficientOnDeviceLM”采用类似NAS的搜索方法，为iPhone的神经网络引擎剪枝Transformer层。Apple的方案是专有的，但其结果表明，在A17 Pro芯片上，一个3B参数模型实现了3倍加速。

Qualcomm是另一家主要参与者，将NAS集成到其面向Snapdragon平台的AI Engine中。其开源仓库`AIMET`（AI Model Efficiency Toolkit，GitHub上5400+星标）包含一个名为“AutoQuant”的基于NAS的压缩模块，可自动选择每层的位宽。Qualcomm的最新演示显示，一个Whisper语音识别模型从1.5 GB压缩至350 MB，词错误率仅增加2%，并在搭载Snapdragon 8 Gen 3的参考手机上运行。

Hugging Face也已加入战局，其`optimum`库通过集成Intel的Neural Compressor支持NAS+QAT。其`AutoModelForCausalLM`配合`quantization_config='auto'`参数，使用轻量级搜索来选择位宽。不过，这仍然是一个简化版本——完整的联合NAS功能尚未提供。

当前工具对比：

| 工具/平台 | NAS支持 | QAT支持 | 联合优化 | 开源 | 目标硬件 |
|---|---|---|---|---|---|
| Apple Core ML

时间归档

常见问题

这次模型发布“NAS and Quantization Merge to Slim Large Models Without Performance Loss”的核心内容是什么？

The perennial challenge of deploying large language models (LLMs) on edge devices—smartphones, IoT sensors, wearables—has been a trade-off between compression and capability. Aggre…

从“How does NAS differ from traditional pruning for LLMs?”看，这个模型发布为什么重要？

The core innovation lies in unifying two traditionally separate compression techniques: neural architecture search (NAS) and quantization-aware training (QAT). Standard NAS methods, such as DARTS or ProxylessNAS, search…

围绕“Can NAS+QAT be applied to multimodal models?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

NAS与量化合体：大模型瘦身不减性能，端侧AI迎来新解法

技术深度解析

主要参与者与案例研究

更多来自 arXiv cs.LG

相关专题

时间归档

延伸阅读

常见问题