ProxylessNAS 深度解析:直接神经架构搜索如何重塑边缘AI

GitHub March 2026
⭐ 1
来源:GitHubedge AI归档:March 2026
ProxylessNAS 通过摒弃传统架构搜索中引入偏差的代理任务,实现了自动化神经网络设计的范式转变。该方法能直接针对特定硬件目标进行优化,产出的模型效率比人工设计高出2-3倍。其开源实现为理解这一变革性技术提供了实践入口。

神经架构搜索(NAS)长期以来致力于自动化设计最优神经网络,但传统方法存在一个关键缺陷:它们依赖于在较小数据集上训练或使用简化架构等代理任务,这引入了显著偏差,往往导致最终模型在实际部署中表现欠佳。由 MIT Han Lab 最初开发的 ProxylessNAS 框架打破了这种依赖,实现了直接在目标数据集和硬件平台上进行架构搜索。其核心创新在于一个可微分的搜索空间,其中架构参数可以通过梯度下降与网络权重一同优化。这消除了对资源密集的强化学习或进化算法的需求,同时保持了搜索过程的严谨性。该技术标志着 NAS 从依赖近似代理转向直接、硬件感知的优化,为在资源受限的边缘设备上部署高效模型开辟了新道路。

技术深度剖析

ProxylessNAS 的运行原理与之前的 NAS 方法有根本性不同。传统方法如 NASNet、ENAS 或 DARTS 依赖于代理任务:它们在较小数据集(如 CIFAR-10)上搜索架构,然后将发现的单元结构迁移到更大数据集(如 ImageNet);或者使用未考虑硬件特定特性的简化性能评估器。这种代理方法产生了系统性偏差——在代理任务上表现良好的架构,在目标任务和硬件上往往表现不佳。

其突破性进展源于三项关键技术创新:

1. 路径级二值化:与同时将所有可能操作保存在内存中(这需要存储数十亿潜在架构的参数)不同,ProxylessNAS 在训练期间对架构参数进行二值化。在任何前向传播过程中,只有一条路径是活跃的,从而将内存消耗降低到单个模型的水平,而非包含所有可能架构的超网。

2. 可微分延迟损失:该方法通过可微分近似,将实际的硬件延迟测量直接纳入损失函数。在搜索过程中,关于架构参数的梯度同时考虑了分类精度和目标硬件(CPU、GPU、移动处理器)上的推理延迟。这是通过一个将架构选择映射到预期运行时间的延迟估计模型实现的。

3. 基于梯度的架构优化:与需要数千个架构样本的强化学习或进化方法不同,ProxylessNAS 使用梯度下降来优化架构参数和网络权重。对于不可微操作(如选择激活哪条路径)的梯度,则使用直通估计器技术进行估算。

其开源实现(schoolboy-ju)清晰地用 Python/PyTorch 实现了这些概念。关键文件包括实现二值化搜索算法的 `search.py`、用于硬件感知优化的 `latency_estimator.py`,以及针对 MobileNet 和 ResNet 搜索空间的各种网络定义文件。该代码库展示了如何在不同硬件后端上测量实际延迟,并将这些测量结果整合到搜索过程中。

| NAS 方法 | 搜索成本 (GPU 天数) | 是否使用代理 | 是否硬件感知 | ImageNet Top-1 准确率 | 延迟 (移动 CPU) |
|---|---|---|---|---|---|
| ProxylessNAS | 4 | | | 74.6% | 78ms |
| DARTS | 1.5 | CIFAR-10 | 否 | 73.3% | 92ms |
| MnasNet | 4万 TPU 小时 | 缩减版 ImageNet | 部分 | 74.0% | 76ms |
| NASNet | 2,000 | CIFAR-10 | 否 | 74.0% | 183ms |
| 人工设计 (MobileNetV2) | 不适用 | 不适用 | 否 | 72.0% | 75ms |

*数据要点*:与先前方法相比,ProxylessNAS 以极低的搜索成本实现了更优的精度-延迟权衡,同时完全消除了代理偏差。其 4 GPU 天的搜索成本,相比 NASNet 等早期 NAS 方法,降低了 10,000 倍。

关键参与者与案例研究

ProxylessNAS 方法论已影响了学术研究和工业部署。在 MIT Han Lab,研究人员 Song Han、Han Cai 和 Ligeng Zhu 已将这项工作扩展到后续项目中,如 Once-for-All Networks 和 Hardware-Aware Transformers (HAT)。他们的研究展示了一条通往日益高效和硬件特定的神经架构搜索的清晰轨迹。

谷歌同期开发的 MnasNet 具有相似的硬件感知目标,但使用了强化学习而非基于梯度的优化。这种对比具有启发性:虽然 MnasNet 在某些情况下实现了略好的延迟数据,但其搜索所需的计算资源高出数个数量级(4万 TPU 小时 vs. 4 GPU 天)。这使得 ProxylessNAS 对于没有谷歌规模资源的组织而言,可及性要高得多。

苹果公司已在其 ML 编译器栈中融入了类似原则,特别是针对特定 iPhone 硬件配置优化 Core ML 模型。虽然未公开标注为 ProxylessNAS 的衍生品,但其用于创建 MobileNet 和 EfficientNet 等模型高效变体的架构搜索工具,明显受到了硬件感知 NAS 研究的影响。

高通 AI 研究部门已发表工作,将 ProxylessNAS 概念扩展到其 Snapdragon 平台,创建了针对不同层级移动处理器优化的硬件特定模型库。他们的 QNN SDK 现在包含一些工具,允许开发者在给定 Snapdragon 硬件上特定功耗和延迟约束的情况下,搜索最优模型架构。

| 机构 | 实现 | 目标硬件 | 关键创新 |
|---|---|---|---|
| MIT Han Lab | 原始 ProxylessNAS | 通用 (CPU/GPU/TPU) | 路径二值化,可微分延迟 |
| Google Research | MnasNet, MobileNetV3 | 移动设备 TPU/CPU | 强化学习,多目标奖励 |
| Apple | Core ML 优化工具 | iPhone SoC (CPU/GPU/ANE) | 硬件感知编译,片上内存优化 |
| Qualcomm AI Research | Snapdragon 模型库 | Snapdragon 系列处理器 | 平台特定优化,功耗约束搜索 |

更多来自 GitHub

开源漫画翻译工具崛起:五引擎AI挑战专业服务,GitHub星数飙升hgmzhn/manga-translator-ui 项目基于 manga-image-translator 核心库,在 GitHub 上迅速走红,已获得超过 1600 颗星,日均新增 252 颗。该工具提供一键安装、开箱即用的体验,可自动TokenCost:开源库如何撕开大模型定价的“黑箱”TokenCost 是一个托管在 GitHub 上 agentops-ai 组织下的开源 Python 库,通过解决一个简单却令人头疼的问题——在调用 LLM API 之前精确知道其成本——已累积近 2000 颗星。该库维护着一张动态更新的TokenCost分支:每位LLM开发者必备的隐藏成本节省工具TokenCost,源自AgentOps-AI/tokencost的一个分支,是一款轻量级Python库,专为估算LLM API调用成本而设计。它通过将token计数映射到已知定价层级,支持包括OpenAI的GPT-4、GPT-3.5、An查看来源专题页GitHub 已收录 1803 篇文章

相关专题

edge AI81 篇相关文章

时间归档

March 20262347 篇已发布文章

延伸阅读

MIT开源TinyML知识库:拆解边缘AI,从理论到嵌入式实战MIT韩松实验室近日发布了一个全面的TinyML开源知识库,堪称在资源受限设备上部署AI的“大师课”。这一教育平台系统性地弥合了神经网络压缩前沿研究与嵌入式硬件现实之间的鸿沟,为工程师和研究人员在蓬勃发展的边缘AI领域提供了关键导航图。阿里zVec:一个可能重塑边缘AI的微型向量数据库阿里巴巴开源了zVec,一个专为嵌入式系统和边缘设备打造的、闪电般快速的进程内向量数据库。它零依赖、采用SIMD优化索引,无需独立服务器即可实现毫秒级检索,挑战了向量搜索需要重型基础设施的固有认知。YOLO遇上Detectron2:AQD量化技术打通边缘AI与模块化设计的任督二脉一个全新的开源项目将YOLO的实时检测能力与Detectron2的模块化设计融为一体,并引入AQD量化技术为边缘设备压缩模型。然而,文档稀疏、社区关注度极低——它究竟是兑现了承诺的利器,还是仅止于小众实验?谷歌推出LiteRT-LM:或将彻底改变边缘设备本地大模型部署格局谷歌AI Edge团队近日开源了专为资源受限边缘设备设计的轻量级运行时LiteRT-LM。这项技术突破旨在将高性能语言模型部署至智能手机、物联网终端等设备,标志着AI推理正从云端向隐私优先、低延迟、离线的分布式范式加速演进。

常见问题

GitHub 热点“ProxylessNAS Demystified: How Direct Neural Architecture Search Revolutionizes Edge AI”主要讲了什么?

Neural Architecture Search (NAS) has long promised to automate the design of optimal neural networks, but traditional methods suffered from a critical flaw: they relied on proxy ta…

这个 GitHub 项目在“How to implement ProxylessNAS on custom hardware”上为什么会引发关注?

ProxylessNAS operates on a fundamentally different principle than previous NAS approaches. Traditional methods like NASNet, ENAS, or DARTS relied on proxy tasks: they would search architectures on a smaller dataset (like…

从“ProxylessNAS vs DARTS performance comparison mobile devices”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 1,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。