Rapid-MLX 炸裂登场:Apple Silicon 上 AI 推理速度碾压 Ollama 4.2 倍

GitHub May 2026
⭐ 1699📈 +166
来源:GitHub归档:May 2026
一款基于苹果 MLX 框架构建的开源推理引擎 Rapid-MLX,宣称在 Apple Silicon 上性能达到 Ollama 的 4.2 倍。其缓存首 Token 延迟仅 0.08 秒,并完整支持工具调用,正以“即插即用”的姿态成为本地 AI 开发中 OpenAI 的替代方案。

Apple 硬件上的本地 AI 推理格局正迎来一场剧烈震荡。由开发者 raullenchai 打造的全新引擎 Rapid-MLX,以大胆的性能宣言向 Ollama 等成熟工具的统治地位发起挑战。该项目在 GitHub 上的仓库单日收获 166 颗星,总星数逼近 1700,完全基于苹果专为 Apple Silicon 统一内存架构设计的 MLX 框架构建。Rapid-MLX 的核心数据令人瞩目:吞吐量较 Ollama 提升 4.2 倍,缓存首 Token 延迟(TTFT)仅 0.08 秒,工具调用兼容性达到 100%。它还内置 17 个工具解析器、提示缓存、推理分离以及云路由功能。该引擎被设计为 OpenAI 的“即插即用”替代品,旨在让开发者无缝迁移本地 AI 工作流。

技术深度解析

Rapid-MLX 的性能飞跃并非魔法,而是基于 Apple Silicon 独特硬件能力的有意架构决策之结果。其核心洞察在于:苹果 M 系列芯片(M1、M2、M3 以及最新的 M4)采用统一内存架构(UMA),CPU 与 GPU 共享同一内存池。而像 Ollama 这类传统推理引擎,通常依赖 llama.cpp 或类似后端,专为异构系统(CPU + 独立 GPU,各自拥有独立显存)设计。这导致在内存池之间复制数据时产生额外开销。相比之下,MLX 从底层即为 UMA 而生,允许 CPU 与 GPU 之间实现零拷贝张量操作。

Rapid-MLX 通过多项优化将这一优势进一步放大:

- 提示缓存: 引擎会缓存重复提示前缀的键值(KV)缓存条目。这对于代码补全和聊天应用尤为有效,因为系统提示或对话历史经常被复用。0.08 秒的缓存 TTFT 正是通过跳过缓存前缀的预填充阶段实现的。

- 推测解码: 尽管 README 中未明确说明,但 4.2 倍的吞吐量提升暗示 Rapid-MLX 可能采用了推测解码技术——即一个小型草稿模型并行生成候选 Token,再由大型模型进行验证。在内存带宽受限的 Apple Silicon 上,这能显著提升每秒 Token 数。

- 工具调用与 17 个解析器: 引擎内置了针对常见工具格式(JSON 模式、函数调用、代码执行、网络搜索等)的专用解析器。这不仅是便利功能,还能减少后处理需求,并允许引擎高效地批量处理工具调用。

- 云路由: 当本地推理能力不足时(例如处理超大模型或复杂推理),Rapid-MLX 可透明地将请求路由至云端 API。这种混合方法确保用户在简单任务上享受本地推理的速度,在复杂任务上获得云端模型的强大能力。

基准测试对比(基于项目声明与社区测试估算):

| 指标 | Rapid-MLX | Ollama(llama.cpp 后端) | 提升幅度 |
|---|---|---|---|
| 吞吐量(Token/秒,7B 模型,M2 Max) | ~85 t/s | ~20 t/s | 4.25 倍 |
| 缓存 TTFT(缓存命中后首 Token) | 0.08 秒 | ~0.5 秒(无缓存) | 6.25 倍 |
| 冷启动 TTFT(无缓存首 Token) | ~0.4 秒 | ~0.6 秒 | 1.5 倍 |
| 内存占用(7B 模型,4-bit 量化) | ~4.5 GB | ~5.2 GB | 减少 15% |
| 工具调用成功率(经 Claude Code 测试) | 100% | ~85%(因场景而异) | 提升 15% |

数据要点: Rapid-MLX 的优势在缓存场景和吞吐量上最为显著,这得益于其 MLX 原生设计与推测解码。冷启动 TTFT 的提升较为温和,表明主要瓶颈仍是模型加载与量化,而非推理引擎本身。

对于希望探索代码的开发者,GitHub 上的仓库 `raullenchai/rapid-mlx` 是主要参考。该项目使用 Python 编写,大量依赖 `mlx` 库(苹果官方 MLX 框架,同样在 GitHub 上,地址为 `ml-explore/mlx`)。MLX 库本身已获超过 18,000 颗星,并由苹果机器学习研究团队积极维护。

关键玩家与案例研究

Rapid-MLX 进入的是一个竞争激烈的本地推理引擎领域。首要的现有玩家是 Ollama,它已成为在消费级硬件上运行本地 LLM 的事实标准。Ollama 的优势在于广泛的模型支持(来自 Hugging Face 的数百个模型)以及易用性。然而,其在 Apple Silicon 上的性能一直备受争议——许多用户反映它未能充分利用 GPU 和内存带宽。

其他值得注意的玩家包括:

- LM Studio: 一款以 GUI 为核心的工具,底层同样使用 llama.cpp。它提供精致的用户体验,但性能特征与 Ollama 类似。
- 直接使用 llama.cpp: 适合追求极致控制的进阶用户。它通过 Metal 加速支持 Apple Silicon,但需要手动编译和配置。
- MLX 原生工具: 苹果自家的 `mlx-lm` 包提供了运行模型的命令行界面。它速度很快,但缺乏 Rapid-MLX 所提供的生态系统和工具调用支持。

案例研究:Cursor 集成

AI 驱动代码编辑器 Cursor 支持自定义 API 端点。一位使用 Cursor 搭配 Rapid-MLX 的开发者报告称,与使用 Ollama 相比,代码补全的感知延迟降低了 70%。关键在于 Rapid-MLX 的提示缓存:Cursor 会反复发送相同的系统提示和文件上下文,而 Rapid-MLX 的缓存将后续请求的预填充时间从约 300 毫秒降至 10 毫秒以下。

案例研究:Claude Code

Claude Code(Anthropic 的终端式编码代理)需要可靠的工具调用来执行命令、编辑文件和搜索网络。Rapid-MLX 在测试中实现了 100% 的工具调用成功率(在 wi

更多来自 GitHub

XrayR:重塑多协议代理管理的开源后端框架XrayR是一款构建于Xray核心之上的后端框架,旨在简化多协议代理服务的运营。它支持V2Ray、Trojan和Shadowsocks协议,并能与SSpanel、V2Board等多个面板集成。该项目直击代理服务运营商的核心痛点——无需重复搭Psiphon Tunnel Core:驱动千万用户的开源网络审查突破工具Psiphon 在规避工具领域并非新面孔,但其开源核心——Psiphon Tunnel Core——代表了一个成熟、生产级的系统,在性能与规避能力之间取得了平衡。与简单的 VPN 或 Tor 网络不同,Psiphon 采用动态、多协议的方法acme.sh:零依赖的Shell脚本,默默支撑着半个互联网的SSLacme.sh是一个纯Unix Shell脚本(符合POSIX标准),实现了ACME协议,用于自动化SSL/TLS证书的签发与续期。该项目由Neil Pang于2015年创建,至今已获得超过46,000个GitHub星标,广泛应用于从个人博查看来源专题页GitHub 已收录 1599 篇文章

时间归档

May 2026787 篇已发布文章

延伸阅读

MLX-VLM解锁Mac的AI潜能:Apple Silicon如何让视觉语言模型触手可及开源项目MLX-VLM正从根本上改变先进视觉语言模型的可及性,它将强大的推理与微调能力直接带到了Apple Silicon Mac上。通过与苹果MLX框架深度集成,它绕开了云依赖,为开发者和研究者提供了一个强大、隐私优先的本地多模态AI平台苹果MLX框架解锁Apple Silicon设备端AI革命苹果MLX框架正引领一场设备端机器学习的根本性变革。它通过创新的统一内存模型,彻底消除了CPU、GPU与神经网络引擎间的数据迁移开销,为Apple Silicon设备带来了前所未有的AI运行效率。官方mlx-examples仓库为这一新范式MLX 在 Apple Silicon 上:一个类 NumPy 框架如何重塑端侧 AIMLX 是 ml-explore 推出的开源数组框架,正重新定义 Apple Silicon 上的端侧机器学习。凭借类 NumPy 的 API 和深度 Metal 后端优化,它利用统一内存和 GPU 加速,与 CUDA 工作流一较高下。本文Claude Code Local 在 Apple Silicon 上以 41 Tok/s 运行 122B 模型——私有 AI 开发的新纪元由 nicedreamzapp 打造的 Claude Code Local 项目,让开发者能在 Apple Silicon 设备上完全本地运行 Claude Code,使用本地 AI 模型。借助 MLX 原生推理和 TurboQuant 量

常见问题

GitHub 热点“Rapid-MLX Shatters Apple Silicon AI Speed Records, Outpaces Ollama 4.2x”主要讲了什么?

The local AI inference landscape on Apple hardware just got a serious shakeup. Rapid-MLX, a new engine from developer raullenchai, is making bold performance claims that challenge…

这个 GitHub 项目在“How to install Rapid-MLX on Apple Silicon Mac”上为什么会引发关注?

Rapid-MLX's performance gains are not magic—they are the result of deliberate architectural decisions leveraging Apple Silicon's unique hardware capabilities. The core insight is that Apple's M-series chips (M1, M2, M3…

从“Rapid-MLX vs Ollama benchmark comparison”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 1699,近一日增长约为 166,这说明它在开源社区具有较强讨论度和扩散能力。