Redis之父携ds4亮相：用Metal魔法让DeepSeek 4 Flash在Apple Silicon上飞驰

2026年5月11日 00:06 AINews GitHub May 2026

⭐ 5721📈 +1449

Redis创始人Salvatore Sanfilippo（antirez）发布了ds4，一款专为DeepSeek 4 Flash打造的轻量推理引擎，通过苹果Metal API在Mac上实现GPU加速。该项目上线一天即获超1400颗星，挑战了以CUDA为核心的AI生态，为Apple Silicon上的本地大模型部署开辟了新可能。

在系统编程与AI的交汇点上，Redis的创造者antirez推出了ds4——一款完全通过苹果Metal Performance Shaders运行的DeepSeek 4 Flash专用推理引擎。该项目回应了消费级硬件上高效本地推理日益增长的需求，尤其针对那些没有NVIDIA GPU的用户。ds4用C语言编写，通过Metal API直接访问Apple Silicon Mac的GPU，绕过了CUDA或任何NVIDIA硬件的依赖。引擎设计轻量（二进制文件不到1MB）且快速，antirez报告在M1 Max上推理速度可达每秒50-60个token。项目GitHub仓库迅速爆红，数天内收获5700颗星，既反映了antirez的个人声望，也凸显了社区对Apple Silicon原生AI工具的渴望。

技术深度解析

antirez的ds4堪称定向优化的典范。与llama.cpp或MLX这类通用框架不同，ds4专为单一模型——DeepSeek 4 Flash——量身打造，从而能够充分利用该模型的每一个架构特性。DeepSeek 4 Flash是一个混合专家（MoE）模型，总参数量达161亿，但每个token仅激活约22亿参数。该模型采用细粒度MoE结构，包含64个专家和top-2路由机制。ds4为稀疏MoE计算实现了自定义Metal内核，这正是性能瓶颈的核心所在。该内核采用块稀疏矩阵乘法方法，仅从GPU内存加载被激活的专家权重，相比同等总规模的稠密模型，内存带宽使用量减少了约8倍。

引擎还包含融合注意力内核，将Q、K、V投影和缩放点积注意力合并为单个Metal计算通道，最大限度减少内核启动开销。在量化方面，ds4支持4位和8位GPTQ风格量化，使用推理过程中实时运行的自定义反量化内核。项目代码库异常精简——不到2000行C代码——且设计得易于阅读和修改。antirez表示，目标不是与框架竞争，而是证明通过专注的努力，在Apple Silicon上实现高效推理是可行的。

| 指标 | ds4 (M1 Max, 4-bit) | llama.cpp (M1 Max, Q4_K_M) | MLX (M1 Max, 4-bit) |
|---|---|---|---|
| 模型 | DeepSeek 4 Flash | DeepSeek 4 Flash | DeepSeek 4 Flash |
| Token/秒 | 55 | 38 | 42 |
| 峰值内存 (GB) | 8.2 | 10.1 | 9.5 |
| 二进制大小 | 0.8 MB | 45 MB | 120 MB |
| 启动时间 | 即时 | 2-3秒 | 1-2秒 |

数据要点： 在相同硬件上，ds4相比llama.cpp速度提升45%，相比MLX提升31%，同时内存使用减少19%。这展示了模型专用优化相比通用框架的强大优势。

该项目使用Metal的`MTLResourceStorageModePrivate`存储权重，使其保持在GPU可访问内存中，并采用`dispatchThreadgroups`实现细粒度并行。注意力机制使用基于tile的方法配合共享内存，减少全局内存读取。antirez还用C语言实现了自定义分词器，避免了对Python或其他运行时的依赖。

关键人物与案例研究

最突出的人物是Salvatore Sanfilippo（antirez），Redis的创造者。他的参与带来了即时的可信度和庞大的开发者追随者。Redis本身是最成功的开源项目之一，全球数百万开发者使用。antirez选择聚焦Apple Silicon是战略性的——苹果M系列芯片拥有统一内存架构，非常适合LLM推理，但软件生态一直落后于NVIDIA的CUDA。通过编写Metal原生引擎，antirez实际上是在搭建一座桥梁。

DeepSeek，这家中国AI实验室，是DeepSeek 4 Flash模型背后的另一个关键角色。DeepSeek将自己定位为高效、开放权重模型的提供者，这些模型可与更大的专有系统相抗衡。该公司对MoE架构和量化友好训练的专注，使其自然适合本地推理。DeepSeek 4 Flash于2025年初发布，专为消费级硬件部署设计，总参数量161亿，量化后可适配16GB统一内存。

| 方案 | 目标硬件 | 模型支持 | 易用性 | 性能 |
|---|---|---|---|---|
| ds4 | 仅Apple Silicon | 仅DeepSeek 4 Flash | 极高（单一二进制） | 优秀（调优） |
| llama.cpp | CPU, CUDA, Metal, Vulkan | 数百种模型 | 高（多种选项） | 良好（通用） |
| MLX | 仅Apple Silicon | 多种模型（需转换） | 中等（需Python） | 良好（苹果原生） |
| Ollama | CPU, CUDA, Metal | 数百种模型 | 极高（CLI） | 良好（封装llama.cpp） |

数据要点： ds4以广泛兼容性换取了单一模型上的极致性能。对于需要在Mac上专门使用DeepSeek 4 Flash的开发者来说，这是目前最快的选择。

该领域的其他知名项目包括苹果自家的MLX框架（提供类似NumPy的API用于Apple Silicon上的机器学习）和社区驱动的llama.cpp（通过后端支持Metal）。ds4的方法因其极简主义而独树一帜——它是一个单一用途的工具，将一件事做到了极致。

行业影响与市场动态

ds4的发布标志着AI推理格局的更广泛转变。多年来，NVIDIA的CUDA一直是GPU加速AI的事实标准，造成了对NVIDIA硬件的依赖。Apple Silicon尽管拥有令人印象深刻的原始性能和统一内存，但在AI领域一直处于二等公民地位。ds4，连同MLX和llama.cpp中的Metal后端，是一波正在拉平竞争环境的工具的一部分。

常见问题

GitHub 热点“Redis Creator's ds4 Brings DeepSeek 4 Flash to Apple Silicon with Metal Magic”主要讲了什么？

In a move that bridges the worlds of systems programming and AI, antirez — the creator of Redis — has unveiled ds4, a dedicated inference engine for DeepSeek 4 Flash that runs enti…

这个 GitHub 项目在“how to install ds4 on mac m1 m2 m3”上为什么会引发关注？

antirez's ds4 is a masterclass in targeted optimization. Unlike general-purpose frameworks like llama.cpp or MLX, ds4 is purpose-built for a single model: DeepSeek 4 Flash. This allows it to exploit every architectural q…

从“ds4 vs llama.cpp performance comparison”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 5721，近一日增长约为 1449，这说明它在开源社区具有较强讨论度和扩散能力。

Redis之父携ds4亮相：用Metal魔法让DeepSeek 4 Flash在Apple Silicon上飞驰

技术深度解析

关键人物与案例研究

行业影响与市场动态

更多来自 GitHub

相关专题

时间归档

延伸阅读

常见问题