技术深度解析
这项创新的核心在于将两种传统上相互独立的压缩技术——神经架构搜索(NAS)和量化感知训练(QAT)——统一起来。标准的NAS方法(如DARTS或ProxylessNAS)在离散的网络架构空间(例如层数、滤波器大小、跳跃连接)中进行搜索,以最小化验证损失。与此同时,由NVIDIA的TensorRT和Google的量化感知训练API等工具推广的QAT,在训练过程中模拟量化效果,使模型能够适应更低精度的权重和激活值(例如INT8、INT4)。这里的突破在于构建了一个联合搜索空间,同时包含架构选择(保留哪些神经元)和量化位宽(每个权重用多少比特)。
从算法角度来看,联合优化通常被建模为一个双层优化问题。内层循环训练模型权重以最小化任务损失(例如交叉熵),外层循环则搜索一组架构和量化参数,以在满足性能约束的前提下最小化压缩成本(例如模型大小或延迟)。MIT和Meta的研究人员近期在GitHub仓库`NAS-QAT`(目前已获1200+星标)中发表的工作,展示了对联合搜索空间的可微松弛处理。他们利用Gumbel-Softmax技巧从连续分布中采样离散的架构和量化选择,从而实现基于梯度的优化。
一个关键的技术洞察是“精度敏感性分析”概念。该算法自动识别出哪些层使用较低精度(例如INT4)时精度损失最小,哪些层必须使用较高精度(例如INT8或FP16)。例如,Transformer中的注意力投影层通常对量化高度敏感,而前馈网络层则可以容忍激进的剪枝和更低的位宽。NAS组件随后剪掉冗余的注意力头或整个层,而量化组件则据此分配位宽。
为了用具体数据说明,以下是一份针对LLaMA-2-7B模型的最新研究基准测试结果:
| 压缩方法 | 模型大小 (GB) | MMLU得分 | 延迟 (ms/token, iPhone 15 Pro上) |
|---|---|---|---|
| 无压缩 | 13.5 | 68.9 | 420 (云端,非端侧) |
| 统一INT8量化 | 6.8 | 66.2 | 85 |
| 统一INT4量化 | 3.4 | 58.1 | 42 |
| 仅NAS剪枝 (50%稀疏度) | 6.7 | 65.4 | 78 |
| 联合NAS+QAT (本文方法) | 3.2 | 67.3 | 38 |
数据要点: 联合NAS+QAT方法实现了75%的体积缩减(从13.5 GB降至3.2 GB),同时保留了原始MMLU得分的97.7%;相比之下,统一INT4量化损失了15.7%的精度。这表明,结构与精度的协同优化远比单独使用任何一种技术更为有效。
工程实现上,该方法还采用了两阶段训练流程:首先,训练一个包含所有可能的架构和量化选择的超网络(一种“一次训练,处处可用”风格的预训练)。然后,通过搜索算法(通常是进化算法或强化学习)对子网络进行采样,并在验证集上评估。最终提取出最优模型,并进行少量epoch的微调。这种方案前期计算成本高昂(需要单模型训练成本的4-8倍),但最终得到的压缩模型可以以极低的额外成本进行部署。
主要参与者与案例研究
多家机构正在积极推动这一前沿方向。Apple一直是端侧AI的隐形领导者,其Core ML框架支持混合精度量化与结构化剪枝。他们内部发表的研究“EfficientOnDeviceLM”采用类似NAS的搜索方法,为iPhone的神经网络引擎剪枝Transformer层。Apple的方案是专有的,但其结果表明,在A17 Pro芯片上,一个3B参数模型实现了3倍加速。
Qualcomm是另一家主要参与者,将NAS集成到其面向Snapdragon平台的AI Engine中。其开源仓库`AIMET`(AI Model Efficiency Toolkit,GitHub上5400+星标)包含一个名为“AutoQuant”的基于NAS的压缩模块,可自动选择每层的位宽。Qualcomm的最新演示显示,一个Whisper语音识别模型从1.5 GB压缩至350 MB,词错误率仅增加2%,并在搭载Snapdragon 8 Gen 3的参考手机上运行。
Hugging Face也已加入战局,其`optimum`库通过集成Intel的Neural Compressor支持NAS+QAT。其`AutoModelForCausalLM`配合`quantization_config='auto'`参数,使用轻量级搜索来选择位宽。不过,这仍然是一个简化版本——完整的联合NAS功能尚未提供。
当前工具对比:
| 工具/平台 | NAS支持 | QAT支持 | 联合优化 | 开源 | 目标硬件 |
|---|---|---|---|---|---|
| Apple Core ML