技术深度解析
这些基准测试结果是硬件-软件协同优化的典范。iPhone 的 Neural Engine(ANE)是一种基于脉动阵列的神经处理器,专为神经网络推理中占主导地位的矩阵乘法而设计。其关键优势在于能效:ANE 执行一次乘加运算所消耗的能量约为 GPU 的 1/10,CPU 的 1/50。这直接转化为热量产生。在持续 LLM 推理工作负载下,ANE 的功耗保持在 1W 以下,而 GPU 可能飙升至 5-7W,CPU 达到 3-4W。苹果的热设计——均热板与被动散热片——在触发皮肤温度阈值导致降频前,可连续耗散约 4W 热量。ANE 舒适地工作在此阈值之下;GPU 和 CPU 则不然。
MLX,苹果自家的机器学习框架,通过 Metal 针对 GPU 进行了优化。它能够达到比 ANE 更高的峰值吞吐量(前 30 秒内 28 vs. 22 tokens/sec),因为 GPU 拥有更多原始计算单元。然而,GPU 的热密度要高得多。连续推理约 90 秒后,GPU 温度达到降频阈值,苹果的电源管理将时钟速度降低 30-40%,导致 token 速率骤降。LiteRT 主要使用 CPU(或在某些 Android 设备上使用 DSP),其受影响更严重,因为 CPU 的热容量更小,且其能效核心并非为持续矩阵运算而设计。
一个关键的架构细节:ANE 的内存子系统与统一内存架构紧密耦合,允许从 DRAM 中存储的模型权重进行零拷贝数据传输。MLX 和 LiteRT 必须在 CPU/GPU 和系统内存之间复制数据,增加了延迟和能耗开销。这就是为什么即使在降频之前,ANE 的每 token 延迟也更加一致(标准差 < 2ms),而 MLX(标准差约 8ms)和 LiteRT(标准差约 12ms)则相形见绌。
基准数据:
| 框架 | 峰值 Tokens/sec | 持续(10 分钟)Tokens/sec | 降幅 % | 平均功耗(W) | 峰值温度(°C) |
|---|---|---|---|---|---|
| iPhone ANE (Core ML) | 22 | 21 | 4.5% | 0.9 | 42 |
| MLX (GPU via Metal) | 28 | 16 | 42.9% | 4.8 | 68 |
| LiteRT (CPU) | 18 | 10 | 44.4% | 3.2 | 61 |
数据要点: ANE 的持续吞吐量比 MLX 降频后的速率高 31%,比 LiteRT 高 110%,尽管其峰值较低。对于始终在线的应用而言,一致的延迟比突发速度更有价值。
对于开发者来说,相关的开源仓库包括:
- mlx (ml-explore/mlx) – 苹果的数组框架,用于在 Apple Silicon 上进行高效机器学习。最近的提交显示其专注于 LLM 推理优化,但热天花板仍然是硬件限制。GitHub 星标:约 18k。
- LiteRT (原名 TensorFlow Lite, tensorflow/tflite-micro) – 谷歌面向移动和嵌入式设备的轻量级运行时。它已通过 XNNPACK 和 Hexagon DSP 增加了对设备端 LLM 的支持,但在 iOS 上默认使用 CPU。星标:约 185k(TensorFlow 仓库)。
- llama.cpp (ggml-org/llama.cpp) – 在消费硬件上运行 LLM 的事实标准。它通过 Core ML 后端支持苹果的 ANE,但集成仍处于实验阶段。星标:约 75k。
结论很明确:对于持续推理,ANE 的热效率是不可妥协的优势。任何绕过 ANE 的框架——即使是苹果自家的 MLX——都将撞上热墙。
关键参与者与案例研究
苹果: 明显的赢家。其垂直整合——设计 A17/M 系列芯片、ANE、Metal API、Core ML 以及热管理固件——创造了一个优化的闭环。苹果尚未公开 ANE 的规格,但拆解估计 A17 Pro 的 ANE 拥有 16 个核心,可提供 35 TOPS 的性能。苹果的策略是让 ANE 成为所有设备端 AI 的默认路径,正如 iOS 18 的设备端 Siri 和 Apple Intelligence 功能所展示的那样。苹果面临的风险是竞争对手(谷歌、高通)在原始 TOPS 上正在追赶,但在热设计上尚未赶上。
谷歌 (LiteRT): 谷歌的设备端 AI 策略是碎片化的。LiteRT 是运行时,但硬件目标在 Android 设备间差异巨大。谷歌自家的 Tensor 芯片(G3、G4)包含用于设备端 AI 的 TPU(张量处理单元),但其热性能不如苹果的 ANE。例如,Pixel 9 Pro 在连续 LLM 推理 3 分钟后就会对其 TPU 进行降频,从 15 tokens/sec 降至 9 tokens/sec。谷歌的优势在于生态系统覆盖范围——LiteRT 运行在数十亿台设备上——但体验不一致。
高通: Snapdragon 8 Gen 3 的 Hexagon NPU 声称拥有 45 TOPS,但独立基准测试显示其在持续负载下严重降频。高通的 AI Engine 在突发任务(照片处理、语音识别)中表现出色,但并非为持续 LLM 推理而设计。即将推出的用于笔记本电脑的 Snapdragon X Elite 可能会改变这一状况,因为它拥有更大的热设计空间。
Meta: Meta 一直是设备端 AI 的倡导者。