Redis之父携ds4亮相:用Metal魔法让DeepSeek 4 Flash在Apple Silicon上飞驰

GitHub May 2026
⭐ 5721📈 +1449
来源:GitHublocal AI归档:May 2026
Redis创始人Salvatore Sanfilippo(antirez)发布了ds4,一款专为DeepSeek 4 Flash打造的轻量推理引擎,通过苹果Metal API在Mac上实现GPU加速。该项目上线一天即获超1400颗星,挑战了以CUDA为核心的AI生态,为Apple Silicon上的本地大模型部署开辟了新可能。

在系统编程与AI的交汇点上,Redis的创造者antirez推出了ds4——一款完全通过苹果Metal Performance Shaders运行的DeepSeek 4 Flash专用推理引擎。该项目回应了消费级硬件上高效本地推理日益增长的需求,尤其针对那些没有NVIDIA GPU的用户。ds4用C语言编写,通过Metal API直接访问Apple Silicon Mac的GPU,绕过了CUDA或任何NVIDIA硬件的依赖。引擎设计轻量(二进制文件不到1MB)且快速,antirez报告在M1 Max上推理速度可达每秒50-60个token。项目GitHub仓库迅速爆红,数天内收获5700颗星,既反映了antirez的个人声望,也凸显了社区对Apple Silicon原生AI工具的渴望。

技术深度解析

antirez的ds4堪称定向优化的典范。与llama.cpp或MLX这类通用框架不同,ds4专为单一模型——DeepSeek 4 Flash——量身打造,从而能够充分利用该模型的每一个架构特性。DeepSeek 4 Flash是一个混合专家(MoE)模型,总参数量达161亿,但每个token仅激活约22亿参数。该模型采用细粒度MoE结构,包含64个专家和top-2路由机制。ds4为稀疏MoE计算实现了自定义Metal内核,这正是性能瓶颈的核心所在。该内核采用块稀疏矩阵乘法方法,仅从GPU内存加载被激活的专家权重,相比同等总规模的稠密模型,内存带宽使用量减少了约8倍。

引擎还包含融合注意力内核,将Q、K、V投影和缩放点积注意力合并为单个Metal计算通道,最大限度减少内核启动开销。在量化方面,ds4支持4位和8位GPTQ风格量化,使用推理过程中实时运行的自定义反量化内核。项目代码库异常精简——不到2000行C代码——且设计得易于阅读和修改。antirez表示,目标不是与框架竞争,而是证明通过专注的努力,在Apple Silicon上实现高效推理是可行的。

| 指标 | ds4 (M1 Max, 4-bit) | llama.cpp (M1 Max, Q4_K_M) | MLX (M1 Max, 4-bit) |
|---|---|---|---|
| 模型 | DeepSeek 4 Flash | DeepSeek 4 Flash | DeepSeek 4 Flash |
| Token/秒 | 55 | 38 | 42 |
| 峰值内存 (GB) | 8.2 | 10.1 | 9.5 |
| 二进制大小 | 0.8 MB | 45 MB | 120 MB |
| 启动时间 | 即时 | 2-3秒 | 1-2秒 |

数据要点: 在相同硬件上,ds4相比llama.cpp速度提升45%,相比MLX提升31%,同时内存使用减少19%。这展示了模型专用优化相比通用框架的强大优势。

该项目使用Metal的`MTLResourceStorageModePrivate`存储权重,使其保持在GPU可访问内存中,并采用`dispatchThreadgroups`实现细粒度并行。注意力机制使用基于tile的方法配合共享内存,减少全局内存读取。antirez还用C语言实现了自定义分词器,避免了对Python或其他运行时的依赖。

关键人物与案例研究

最突出的人物是Salvatore Sanfilippo(antirez),Redis的创造者。他的参与带来了即时的可信度和庞大的开发者追随者。Redis本身是最成功的开源项目之一,全球数百万开发者使用。antirez选择聚焦Apple Silicon是战略性的——苹果M系列芯片拥有统一内存架构,非常适合LLM推理,但软件生态一直落后于NVIDIA的CUDA。通过编写Metal原生引擎,antirez实际上是在搭建一座桥梁。

DeepSeek,这家中国AI实验室,是DeepSeek 4 Flash模型背后的另一个关键角色。DeepSeek将自己定位为高效、开放权重模型的提供者,这些模型可与更大的专有系统相抗衡。该公司对MoE架构和量化友好训练的专注,使其自然适合本地推理。DeepSeek 4 Flash于2025年初发布,专为消费级硬件部署设计,总参数量161亿,量化后可适配16GB统一内存。

| 方案 | 目标硬件 | 模型支持 | 易用性 | 性能 |
|---|---|---|---|---|
| ds4 | 仅Apple Silicon | 仅DeepSeek 4 Flash | 极高(单一二进制) | 优秀(调优) |
| llama.cpp | CPU, CUDA, Metal, Vulkan | 数百种模型 | 高(多种选项) | 良好(通用) |
| MLX | 仅Apple Silicon | 多种模型(需转换) | 中等(需Python) | 良好(苹果原生) |
| Ollama | CPU, CUDA, Metal | 数百种模型 | 极高(CLI) | 良好(封装llama.cpp) |

数据要点: ds4以广泛兼容性换取了单一模型上的极致性能。对于需要在Mac上专门使用DeepSeek 4 Flash的开发者来说,这是目前最快的选择。

该领域的其他知名项目包括苹果自家的MLX框架(提供类似NumPy的API用于Apple Silicon上的机器学习)和社区驱动的llama.cpp(通过后端支持Metal)。ds4的方法因其极简主义而独树一帜——它是一个单一用途的工具,将一件事做到了极致。

行业影响与市场动态

ds4的发布标志着AI推理格局的更广泛转变。多年来,NVIDIA的CUDA一直是GPU加速AI的事实标准,造成了对NVIDIA硬件的依赖。Apple Silicon尽管拥有令人印象深刻的原始性能和统一内存,但在AI领域一直处于二等公民地位。ds4,连同MLX和llama.cpp中的Metal后端,是一波正在拉平竞争环境的工具的一部分。

更多来自 GitHub

Nerfstudio统一NeRF生态:模块化框架大幅降低3D场景重建门槛nerfstudio-project/nerfstudio仓库已迅速成为神经辐射场(NeRF)研发的核心枢纽。凭借超过11500颗GitHub星标,该框架直击一个关键痛点:NeRF实现的碎片化。在Nerfstudio出现之前,从Instan高斯泼溅击碎NeRF速度壁垒:实时3D渲染的新范式graphdeco-inria/gaussian-splatting仓库拥有超过21,800颗星,是Inria一篇突破性论文的官方实现,从根本上重新思考了3D场景的表示与渲染方式。传统的NeRF方法虽然能生成惊艳的新视角,但由于需要沿每条射Mr. Ranedeer AI Tutor:一个提示词,统治所有个性化学习Mr. Ranedeer AI Tutor 是一个专为 GPT-4 设计的开源提示词,能将模型转化为可定制、可交互的智能导师。由用户 jushbjj 创建,该提示词在单一文本块内定义了人格角色(Mr. Ranedeer)、课程结构以及自适应查看来源专题页GitHub 已收录 1718 篇文章

相关专题

local AI60 篇相关文章

时间归档

May 20261281 篇已发布文章

延伸阅读

Claude Code Local 在 Apple Silicon 上以 41 Tok/s 运行 122B 模型——私有 AI 开发的新纪元由 nicedreamzapp 打造的 Claude Code Local 项目,让开发者能在 Apple Silicon 设备上完全本地运行 Claude Code,使用本地 AI 模型。借助 MLX 原生推理和 TurboQuant 量Cortex.cpp:Jan的C++引擎试图去中心化AI,但它能击败云端吗?Jan推出的cortex.cpp是一款基于C++的本地AI推理引擎,承诺提供兼容OpenAI的API,无需依赖云端。然而,仅有2,761个GitHub星标和狭窄的GPU支持范围,这个模块化平台真的能挑战集中式AI提供商的主导地位吗?OpenHuman:将隐私置于云端依赖之上的本地AI一个名为OpenHuman的全新开源项目,承诺打造一款完全运行在你自有硬件上的个人AI超级智能,彻底摆脱云端依赖。但一个轻量级的本地模型,真的能与巨头们一较高下吗?Open WebUI 掀起本地AI民主化浪潮:一个开源界面如何重塑LLM生态格局开源大语言模型爆发式增长后,用户体验成为关键瓶颈。当Llama 3、Mistral等模型变得强大易得时,与之交互却仍需命令行技能。Open WebUI彻底解决了这一痛点,它提供了一款精致的、类ChatGPT的界面,完全在用户本地硬件上运行,

常见问题

GitHub 热点“Redis Creator's ds4 Brings DeepSeek 4 Flash to Apple Silicon with Metal Magic”主要讲了什么?

In a move that bridges the worlds of systems programming and AI, antirez — the creator of Redis — has unveiled ds4, a dedicated inference engine for DeepSeek 4 Flash that runs enti…

这个 GitHub 项目在“how to install ds4 on mac m1 m2 m3”上为什么会引发关注?

antirez's ds4 is a masterclass in targeted optimization. Unlike general-purpose frameworks like llama.cpp or MLX, ds4 is purpose-built for a single model: DeepSeek 4 Flash. This allows it to exploit every architectural q…

从“ds4 vs llama.cpp performance comparison”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 5721,近一日增长约为 1449,这说明它在开源社区具有较强讨论度和扩散能力。