技术深度解析
MLPerf Tiny本质上是受限计算领域的一份工程宣言。与其强调原始吞吐量和准确性的数据中心版本不同,Tiny优先考虑定义微控制器领域的三重约束:内存占用、延迟和能效。该基准测试的架构设计刻意保持极简主义。它提供一组四项任务,每项任务都配有一个小型、定点量化的TensorFlow Lite for Microcontrollers(TFLite Micro)模型作为基线。参与者可以使用此参考模型或优化版本提交结果,但必须在保留的测试集上达到同等或更好的准确性,从而确保公平性。
其技术精髓在于任务的选择。视觉唤醒词(VWW) 使用缩小版的COCO数据集,挑战硬件运行一个源自MobileNetV1的模型,以回答一个简单的二元问题:“是否有人存在?”这正是电池供电安防摄像头的计算核心。关键词检测(KWS) 任务使用Google Speech Commands数据集,要求模型从一秒音频片段中识别十二个单词之一——这是语音控制设备的基本操作。异常检测(AD) 采用DCASE 2020数据集,通过检测异常机器声音来模拟工业机械的状态监测。最后,图像分类(IC) 任务使用CIFAR-10数据集,这是一个经典计算机视觉基准,其规模已适配MCU能力。
提交过程极为严格。参与者不仅必须提供准确性数字,还需提供在受控条件下于物理硬件上测得的每次推理的详细延迟(毫秒级)和能耗(微焦耳级)数据。这迫使开发者采用整体优化方法。一款芯片可能拥有快速的乘积累加(MAC)单元,但如果需要将数据从缓慢的闪存移至SRAM,其能耗代价可能令人望而却步。因此,该基准测试奖励那些在内存计算、具有超低静态功耗的专用神经处理单元(NPU)以及高效数据流管理等方面的架构创新。
多个开源项目围绕MLPerf Tiny生态系统运行,为开发和提交提供工具。官方的MLPerf Tiny GitHub仓库托管参考代码、数据集和提交指南。此外,TinyMLPerf项目(一项独立但相关的努力)提供持续基准测试框架。Edge Impulse EON Tuner和SensiML Analytics Studio是商业工具,它们利用这些基准测试原则,帮助开发者自动搜索最适合其特定硬件的最高效模型架构,这一过程被称为TinyML的神经架构搜索(NAS)。
| 基准测试任务 | 参考模型 | 目标准确率 | 典型延迟(基线MCU) | 关键优化指标 |
|---|---|---|---|---|
| 视觉唤醒词 | MobileNetV1 0.25x | >88.0% | ~500 ms | 每次推理能耗(µJ) |
| 关键词检测 | DS-CNN | >92.0% | ~20 ms | 实时音频延迟 |
| 异常检测 | MLP Autoencoder | >97.0% (AUC) | ~5 ms | 低误报率下的检测可靠性 |
| 图像分类 | ResNet-8 | >70.0% | ~150 ms | 准确率与内存占用的权衡 |
数据启示: 上表揭示了不同任务间多样化的性能特征和优化目标。KWS要求超低延迟以实现实时交互,而VWW通常在占空比模式下运行,将每次推理的最小能耗置于首位。这迫使硬件供应商进行架构权衡,而非追求一刀切的加速器方案。
关键参与者与案例研究
MLPerf Tiny排行榜已成为半导体公司和软件工具链的竞技场,各方都在展示其应对TinyML挑战的独特方法。
硬件供应商:
* Arm: 凭借其无处不在的Cortex-M系列CPU和Ethos-U55/U65微NPU,Arm是现有主流架构。其战略是提供可扩展的软件栈(Arm CMSIS-NN库)和硬件IP,使意法半导体和恩智浦等合作伙伴能够构建有竞争力的解决方案。他们的提交结果通常突出Cortex-M55 CPU与微型Ethos-U55 NPU耦合带来的能效提升。
* GreenWaves Technologies: 作为超低功耗AI处理器的先驱,GreenWaves的GAP9应用处理器是一款多核RISC-V设计,专为始终在线的传感器融合和边缘AI而构建。他们的MLPerf Tiny结果展示了极致的能效,通过采用细粒度电源门控和专用内存层次结构,通常在每次推理微焦耳指标上领先。
* Synaptics: 传统上以人机接口硬件闻名,Synaptics已携其Katana边缘AI平台进入该领域。他们的方法将专用神经加速器与强大的DSP核心相结合,旨在所有四项任务上实现强劲性能。