iPhone ANE 碾压 MLX 与 LiteRT：持续 LLM 推理中的热设计制胜

Q: 围绕“Why does iPhone ANE not throttle during AI inference”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

2026年6月5日 14:05 AINews Hacker News June 2026

来源：Hacker News 归档：June 2026

最新基准测试揭示了设备端 AI 的关键差距：苹果 iPhone 的 Neural Engine（ANE）在持续 LLM 推理中保持稳定的 token 生成速率，而 MLX 和 LiteRT 框架因热降频性能大幅衰减。这凸显了苹果的垂直整合在边缘 AI 领域构筑了难以逾越的护城河。

在苹果硬件上进行的持续大语言模型（LLM）推理基准对决中，iPhone 的 Neural Engine（ANE）展现了惊人的稳定 token 生成速率，而两个流行的开源框架——苹果自家的 MLX 和谷歌的设备端运行时 LiteRT——在连续运行仅数分钟后，因热降频导致性能暴跌超过 40%。测试采用 7B 参数量化模型，在 10 分钟连续推理会话中测量每秒 token 数。ANE 维持了近乎平坦的曲线，约 22 tokens/sec；而 MLX 在 GPU 上从 28 降至 16 tokens/sec，LiteRT 在 CPU 上从 18 降至 10 tokens/sec。根本原因在于架构：ANE 是专为超低功耗矩阵运算设计的专用神经处理器，其能效优势直接转化为更少的热量产生。苹果的热设计——均热板与被动散热片——可连续耗散约 4W 热量，而 ANE 的功耗远低于此阈值，GPU 和 CPU 则无法做到。这一结果凸显了硬件-软件协同优化的威力，也表明任何绕过 ANE 的框架——即使是苹果自家的 MLX——都将撞上热墙。

技术深度解析

这些基准测试结果是硬件-软件协同优化的典范。iPhone 的 Neural Engine（ANE）是一种基于脉动阵列的神经处理器，专为神经网络推理中占主导地位的矩阵乘法而设计。其关键优势在于能效：ANE 执行一次乘加运算所消耗的能量约为 GPU 的 1/10，CPU 的 1/50。这直接转化为热量产生。在持续 LLM 推理工作负载下，ANE 的功耗保持在 1W 以下，而 GPU 可能飙升至 5-7W，CPU 达到 3-4W。苹果的热设计——均热板与被动散热片——在触发皮肤温度阈值导致降频前，可连续耗散约 4W 热量。ANE 舒适地工作在此阈值之下；GPU 和 CPU 则不然。

MLX，苹果自家的机器学习框架，通过 Metal 针对 GPU 进行了优化。它能够达到比 ANE 更高的峰值吞吐量（前 30 秒内 28 vs. 22 tokens/sec），因为 GPU 拥有更多原始计算单元。然而，GPU 的热密度要高得多。连续推理约 90 秒后，GPU 温度达到降频阈值，苹果的电源管理将时钟速度降低 30-40%，导致 token 速率骤降。LiteRT 主要使用 CPU（或在某些 Android 设备上使用 DSP），其受影响更严重，因为 CPU 的热容量更小，且其能效核心并非为持续矩阵运算而设计。

一个关键的架构细节：ANE 的内存子系统与统一内存架构紧密耦合，允许从 DRAM 中存储的模型权重进行零拷贝数据传输。MLX 和 LiteRT 必须在 CPU/GPU 和系统内存之间复制数据，增加了延迟和能耗开销。这就是为什么即使在降频之前，ANE 的每 token 延迟也更加一致（标准差 < 2ms），而 MLX（标准差约 8ms）和 LiteRT（标准差约 12ms）则相形见绌。

基准数据：

| 框架 | 峰值 Tokens/sec | 持续（10 分钟）Tokens/sec | 降幅 % | 平均功耗（W） | 峰值温度（°C） |
|---|---|---|---|---|---|
| iPhone ANE (Core ML) | 22 | 21 | 4.5% | 0.9 | 42 |
| MLX (GPU via Metal) | 28 | 16 | 42.9% | 4.8 | 68 |
| LiteRT (CPU) | 18 | 10 | 44.4% | 3.2 | 61 |

数据要点： ANE 的持续吞吐量比 MLX 降频后的速率高 31%，比 LiteRT 高 110%，尽管其峰值较低。对于始终在线的应用而言，一致的延迟比突发速度更有价值。

对于开发者来说，相关的开源仓库包括：
- mlx (ml-explore/mlx) – 苹果的数组框架，用于在 Apple Silicon 上进行高效机器学习。最近的提交显示其专注于 LLM 推理优化，但热天花板仍然是硬件限制。GitHub 星标：约 18k。
- LiteRT (原名 TensorFlow Lite, tensorflow/tflite-micro) – 谷歌面向移动和嵌入式设备的轻量级运行时。它已通过 XNNPACK 和 Hexagon DSP 增加了对设备端 LLM 的支持，但在 iOS 上默认使用 CPU。星标：约 185k（TensorFlow 仓库）。
- llama.cpp (ggml-org/llama.cpp) – 在消费硬件上运行 LLM 的事实标准。它通过 Core ML 后端支持苹果的 ANE，但集成仍处于实验阶段。星标：约 75k。

结论很明确：对于持续推理，ANE 的热效率是不可妥协的优势。任何绕过 ANE 的框架——即使是苹果自家的 MLX——都将撞上热墙。

关键参与者与案例研究

苹果： 明显的赢家。其垂直整合——设计 A17/M 系列芯片、ANE、Metal API、Core ML 以及热管理固件——创造了一个优化的闭环。苹果尚未公开 ANE 的规格，但拆解估计 A17 Pro 的 ANE 拥有 16 个核心，可提供 35 TOPS 的性能。苹果的策略是让 ANE 成为所有设备端 AI 的默认路径，正如 iOS 18 的设备端 Siri 和 Apple Intelligence 功能所展示的那样。苹果面临的风险是竞争对手（谷歌、高通）在原始 TOPS 上正在追赶，但在热设计上尚未赶上。

谷歌 (LiteRT)： 谷歌的设备端 AI 策略是碎片化的。LiteRT 是运行时，但硬件目标在 Android 设备间差异巨大。谷歌自家的 Tensor 芯片（G3、G4）包含用于设备端 AI 的 TPU（张量处理单元），但其热性能不如苹果的 ANE。例如，Pixel 9 Pro 在连续 LLM 推理 3 分钟后就会对其 TPU 进行降频，从 15 tokens/sec 降至 9 tokens/sec。谷歌的优势在于生态系统覆盖范围——LiteRT 运行在数十亿台设备上——但体验不一致。

高通： Snapdragon 8 Gen 3 的 Hexagon NPU 声称拥有 45 TOPS，但独立基准测试显示其在持续负载下严重降频。高通的 AI Engine 在突发任务（照片处理、语音识别）中表现出色，但并非为持续 LLM 推理而设计。即将推出的用于笔记本电脑的 Snapdragon X Elite 可能会改变这一状况，因为它拥有更大的热设计空间。

Meta： Meta 一直是设备端 AI 的倡导者。

时间归档

常见问题

这次模型发布“iPhone ANE Crushes MLX and LiteRT in Sustained LLM Inference: Thermal Design Wins”的核心内容是什么？

In a head-to-head benchmark of sustained large language model (LLM) inference on Apple hardware, the iPhone's Neural Engine (ANE) delivered a remarkably stable token generation rat…

从“iPhone ANE vs MLX sustained LLM inference benchmark”看，这个模型发布为什么重要？

The benchmark results are a masterclass in hardware-software co-optimization. The iPhone's Neural Engine (ANE) is a systolic array-based neural processor, purpose-built for the matrix multiplications that dominate neural…

围绕“Why does iPhone ANE not throttle during AI inference”，这次模型更新对开发者和企业有什么影响？