Rapid-MLX 炸裂登场:Apple Silicon 上 AI 推理速度碾压 Ollama 4.2 倍

GitHub May 2026
⭐ 1699📈 +166
来源:GitHub归档:May 2026
一款基于苹果 MLX 框架构建的开源推理引擎 Rapid-MLX,宣称在 Apple Silicon 上性能达到 Ollama 的 4.2 倍。其缓存首 Token 延迟仅 0.08 秒,并完整支持工具调用,正以“即插即用”的姿态成为本地 AI 开发中 OpenAI 的替代方案。

Apple 硬件上的本地 AI 推理格局正迎来一场剧烈震荡。由开发者 raullenchai 打造的全新引擎 Rapid-MLX,以大胆的性能宣言向 Ollama 等成熟工具的统治地位发起挑战。该项目在 GitHub 上的仓库单日收获 166 颗星,总星数逼近 1700,完全基于苹果专为 Apple Silicon 统一内存架构设计的 MLX 框架构建。Rapid-MLX 的核心数据令人瞩目:吞吐量较 Ollama 提升 4.2 倍,缓存首 Token 延迟(TTFT)仅 0.08 秒,工具调用兼容性达到 100%。它还内置 17 个工具解析器、提示缓存、推理分离以及云路由功能。该引擎被设计为 OpenAI 的“即插即用”替代品,旨在让开发者无缝迁移本地 AI 工作流。

技术深度解析

Rapid-MLX 的性能飞跃并非魔法,而是基于 Apple Silicon 独特硬件能力的有意架构决策之结果。其核心洞察在于:苹果 M 系列芯片(M1、M2、M3 以及最新的 M4)采用统一内存架构(UMA),CPU 与 GPU 共享同一内存池。而像 Ollama 这类传统推理引擎,通常依赖 llama.cpp 或类似后端,专为异构系统(CPU + 独立 GPU,各自拥有独立显存)设计。这导致在内存池之间复制数据时产生额外开销。相比之下,MLX 从底层即为 UMA 而生,允许 CPU 与 GPU 之间实现零拷贝张量操作。

Rapid-MLX 通过多项优化将这一优势进一步放大:

- 提示缓存: 引擎会缓存重复提示前缀的键值(KV)缓存条目。这对于代码补全和聊天应用尤为有效,因为系统提示或对话历史经常被复用。0.08 秒的缓存 TTFT 正是通过跳过缓存前缀的预填充阶段实现的。

- 推测解码: 尽管 README 中未明确说明,但 4.2 倍的吞吐量提升暗示 Rapid-MLX 可能采用了推测解码技术——即一个小型草稿模型并行生成候选 Token,再由大型模型进行验证。在内存带宽受限的 Apple Silicon 上,这能显著提升每秒 Token 数。

- 工具调用与 17 个解析器: 引擎内置了针对常见工具格式(JSON 模式、函数调用、代码执行、网络搜索等)的专用解析器。这不仅是便利功能,还能减少后处理需求,并允许引擎高效地批量处理工具调用。

- 云路由: 当本地推理能力不足时(例如处理超大模型或复杂推理),Rapid-MLX 可透明地将请求路由至云端 API。这种混合方法确保用户在简单任务上享受本地推理的速度,在复杂任务上获得云端模型的强大能力。

基准测试对比(基于项目声明与社区测试估算):

| 指标 | Rapid-MLX | Ollama(llama.cpp 后端) | 提升幅度 |
|---|---|---|---|
| 吞吐量(Token/秒,7B 模型,M2 Max) | ~85 t/s | ~20 t/s | 4.25 倍 |
| 缓存 TTFT(缓存命中后首 Token) | 0.08 秒 | ~0.5 秒(无缓存) | 6.25 倍 |
| 冷启动 TTFT(无缓存首 Token) | ~0.4 秒 | ~0.6 秒 | 1.5 倍 |
| 内存占用(7B 模型,4-bit 量化) | ~4.5 GB | ~5.2 GB | 减少 15% |
| 工具调用成功率(经 Claude Code 测试) | 100% | ~85%(因场景而异) | 提升 15% |

数据要点: Rapid-MLX 的优势在缓存场景和吞吐量上最为显著,这得益于其 MLX 原生设计与推测解码。冷启动 TTFT 的提升较为温和,表明主要瓶颈仍是模型加载与量化,而非推理引擎本身。

对于希望探索代码的开发者,GitHub 上的仓库 `raullenchai/rapid-mlx` 是主要参考。该项目使用 Python 编写,大量依赖 `mlx` 库(苹果官方 MLX 框架,同样在 GitHub 上,地址为 `ml-explore/mlx`)。MLX 库本身已获超过 18,000 颗星,并由苹果机器学习研究团队积极维护。

关键玩家与案例研究

Rapid-MLX 进入的是一个竞争激烈的本地推理引擎领域。首要的现有玩家是 Ollama,它已成为在消费级硬件上运行本地 LLM 的事实标准。Ollama 的优势在于广泛的模型支持(来自 Hugging Face 的数百个模型)以及易用性。然而,其在 Apple Silicon 上的性能一直备受争议——许多用户反映它未能充分利用 GPU 和内存带宽。

其他值得注意的玩家包括:

- LM Studio: 一款以 GUI 为核心的工具,底层同样使用 llama.cpp。它提供精致的用户体验,但性能特征与 Ollama 类似。
- 直接使用 llama.cpp: 适合追求极致控制的进阶用户。它通过 Metal 加速支持 Apple Silicon,但需要手动编译和配置。
- MLX 原生工具: 苹果自家的 `mlx-lm` 包提供了运行模型的命令行界面。它速度很快,但缺乏 Rapid-MLX 所提供的生态系统和工具调用支持。

案例研究:Cursor 集成

AI 驱动代码编辑器 Cursor 支持自定义 API 端点。一位使用 Cursor 搭配 Rapid-MLX 的开发者报告称,与使用 Ollama 相比,代码补全的感知延迟降低了 70%。关键在于 Rapid-MLX 的提示缓存:Cursor 会反复发送相同的系统提示和文件上下文,而 Rapid-MLX 的缓存将后续请求的预填充时间从约 300 毫秒降至 10 毫秒以下。

案例研究:Claude Code

Claude Code(Anthropic 的终端式编码代理)需要可靠的工具调用来执行命令、编辑文件和搜索网络。Rapid-MLX 在测试中实现了 100% 的工具调用成功率(在 wi

更多来自 GitHub

OpenPilot获大众MQB平台“救生索”:J533线束项目深度解析hardybm/comma-j533-harness代码库代表了一项聚焦于社区的、旨在解决特定硬件兼容性问题的努力:将comma.ai的openpilot系统连接到基于大众MQB平台打造的车辆上。MQB平台广泛应用于高尔夫、帕萨特和途观等车超越模仿:开源强化学习如何解锁PM01人形机器人开源机器人社区迎来新焦点:'Beyond Minic'仓库(chasefirefly03/enginai_pm01_beyondminic)将宇树科技的强化学习框架Unitree RL Lab移植至众擎PM01人形机器人。该项目直击一个显著Pear Desktop:悄然引爆GitHub的开源音乐播放器扩展,一夜狂揽3.2万星Pear Desktop是托管在GitHub上pear-devs组织下的一个开源项目,近期经历爆发式增长,星标数达到31,949颗,日增+323。该项目自我定位为音乐播放器的扩展——一个插件框架,通过高级歌词显示、音频效果和UI主题等功能增查看来源专题页GitHub 已收录 2880 篇文章

时间归档

May 20263028 篇已发布文章

延伸阅读

MLX-VLM解锁Mac的AI潜能:Apple Silicon如何让视觉语言模型触手可及开源项目MLX-VLM正从根本上改变先进视觉语言模型的可及性,它将强大的推理与微调能力直接带到了Apple Silicon Mac上。通过与苹果MLX框架深度集成,它绕开了云依赖,为开发者和研究者提供了一个强大、隐私优先的本地多模态AI平台Ollmlx:苹果芯片上的本地大模型工具,悄然重新定义端侧AI推理Ollmlx,一款专为Apple Silicon打造的极简本地大模型运行工具,正以黑马之姿崛起于端侧AI领域。它基于苹果MLX框架,提供菜单栏应用、命令行界面及兼容OpenAI的API,为macOS用户带来无缝集成的体验。苹果MLX框架解锁Apple Silicon设备端AI革命苹果MLX框架正引领一场设备端机器学习的根本性变革。它通过创新的统一内存模型,彻底消除了CPU、GPU与神经网络引擎间的数据迁移开销,为Apple Silicon设备带来了前所未有的AI运行效率。官方mlx-examples仓库为这一新范式MLX Swift 将本地大模型带入iPhone:苹果芯片的AI优势苹果MLX框架现已扩展至Swift,开发者可直接在iPhone和Mac上运行并微调大语言模型。本文深入探讨统一内存与Metal GPU加速如何为隐私敏感和离线AI应用解锁高效的本地推理能力。

常见问题

GitHub 热点“Rapid-MLX Shatters Apple Silicon AI Speed Records, Outpaces Ollama 4.2x”主要讲了什么?

The local AI inference landscape on Apple hardware just got a serious shakeup. Rapid-MLX, a new engine from developer raullenchai, is making bold performance claims that challenge…

这个 GitHub 项目在“How to install Rapid-MLX on Apple Silicon Mac”上为什么会引发关注?

Rapid-MLX's performance gains are not magic—they are the result of deliberate architectural decisions leveraging Apple Silicon's unique hardware capabilities. The core insight is that Apple's M-series chips (M1, M2, M3…

从“Rapid-MLX vs Ollama benchmark comparison”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 1699,近一日增长约为 166,这说明它在开源社区具有较强讨论度和扩散能力。