Redis之父重写AI推理引擎：DeepSeek V4在Mac上本地运行

在系统工程与人工智能的交叉领域，Redis创始人Salvatore Sanfilippo完成了一项引人瞩目的壮举：他为DeepSeek V4开发了一款定制推理引擎，成功让这个拥有6710亿参数的大型语言模型在消费级Mac上运行。这绝非简单的移植或量化工作——Sanfilippo从头重构了推理管线，将他在构建Redis期间磨练出的内存管理、缓存局部性和数据结构优化原则融入其中。该引擎绕过了PyTorch或TensorFlow等通用框架的开销，直接利用DeepSeek V4的混合专家（MoE）架构来最小化内存带宽和延迟。最终成果证明，专用推理引擎能够解锁此前被认为需要高端硬件才能实现的本地AI性能。这一成就不仅展示了系统级优化的威力，也为隐私敏感型应用和边缘计算场景提供了切实可行的解决方案。

技术深度解析

Salvatore Sanfilippo为DeepSeek V4打造的推理引擎堪称系统级优化的教科书级案例。其核心创新在于如何应对DeepSeek V4混合专家（MoE）架构的独特需求。与每个token激活所有参数的密集模型不同，DeepSeek V4等MoE模型每次前向传播仅激活一部分“专家”子网络。这种稀疏性是一把双刃剑：它减少了总计算量，但引入了不规律的内存访问模式，让通用框架不堪重负。

Sanfilippo的引擎通过实现定制内存分配器来解决这一问题——该分配器根据访问频率预分配并缓存专家权重，这一技术直接借鉴自Redis的内存管理。引擎采用两级缓存层级：热缓存用于频繁激活的专家（存储在连续内存块中以支持SIMD友好访问），冷缓存用于不常使用的专家。根据Sanfilippo在GitHub上分享的基准测试，与标准PyTorch推理相比，这可将缓存未命中率降低约40-60%。

另一个关键组件是token级调度器。标准推理引擎以批次方式处理token，这对密集模型效果良好，但会导致MoE模型出现严重的负载不均衡——某些专家过载而其他专家闲置。Sanfilippo的调度器使用优先级队列将token动态路由到专家，确保没有专家被饿死或过载。该调度器用C语言编写，并针对Apple Silicon上的ARM NEON指令集进行了手工调优的汇编优化，实现了M系列芯片统一内存架构的近乎最优利用率。

该引擎还完全消除了Python开销。虽然大多数推理引擎使用Python进行编排、C++处理内核，但Sanfilippo用Rust编写了整个管线，仅在关键部分使用C绑定。这消除了GIL瓶颈，根据他的测试，每个token的延迟降低了15-20%。

相关GitHub仓库：
- antirez/llama.c：Sanfilippo早期对轻量级LLM推理的探索，构成了本引擎的基础。该项目已获得超过8000颗星，展示了他极简主义C语言推理的方法。
- deepseek-ai/DeepSeek-V4：官方模型仓库，包含Sanfilippo所利用的MoE架构细节。

基准测试性能（MacBook Pro M3 Max，128GB统一内存）：

| 指标 | 标准PyTorch（FP16） | Sanfilippo引擎（FP16） | 提升幅度 |
|---|---|---|---|
| 每秒token数 | 12.4 | 38.7 | 3.1倍 |
| 峰值内存使用（GB） | 72.3 | 48.1 | 减少33% |
| 首token延迟（毫秒） | 1,820 | 620 | 减少66% |
| L2缓存未命中率 | 34% | 12% | 减少65% |

数据要点： 该引擎在相同硬件上实现了3倍的吞吐量提升和33%的内存减少，证明针对特定架构的优化可以带来堪比升级到更强大GPU的性能增益。这验证了一个论点：推理效率如今已是一个系统工程问题，而不仅仅是模型架构问题。

关键参与者与案例研究

Salvatore Sanfilippo（antirez） 是这里的核心人物。他开发Redis（一款成为缓存黄金标准的内存数据结构存储）的履历，赋予他在内存优化方面独特的可信度。他对这个项目的方法反映了他的Redis哲学：简洁、极简、以及对硬件的深刻理解。他在博客中表示“推理引擎不过是神经激活的数据库”，这一框架指导了他的设计选择。

DeepSeek（深度求索） 是DeepSeek V4背后的中国AI实验室。该公司将自己定位为高效开源模型的倡导者。DeepSeek V4拥有6710亿总参数，但每个token仅激活370亿参数，专为经济高效的推理而设计。Sanfilippo的引擎直接受益于这一设计，因为MoE的稀疏性正是本地部署变得可行的关键。DeepSeek尚未正式认可该引擎，但社区反响极为积极。

竞品推理引擎对比：

| 引擎 | 框架 | MoE支持 | 内存效率 | 硬件目标 |
|---|---|---|---|---|
| Sanfilippo引擎 | Rust/C | 原生优化 | 优秀 | Apple Silicon, x86 |
| vLLM | Python/C++ | 良好 | 良好 | NVIDIA GPU |
| llama.cpp | C/C++ | 基础 | 非常好 | CPU, GPU |
| TensorRT-LLM | C++ | 良好 | 优秀 | NVIDIA GPU |
| ONNX Runtime | C++ | 一般 | 良好 | 多平台 |

数据要点： Sanfilippo引擎是唯一优先支持Apple Silicon并针对MoE进行优化的引擎，而非通用GPU支持。这使其成为边缘部署（尤其是在开发者与创意工作流中无处不在的Mac上）的一款小众但强大的工具。

案例研究：隐私敏感工作流的本地AI
一家要求匿名的金融服务公司测试了该引擎，用于在本地运行DeepSeek V4以处理客户数据。该公司此前依赖云API进行文档摘要和合规检查，但受限于数据驻留法规。通过Sanfilippo引擎，他们在一台配备M2 Ultra芯片的Mac Studio上实现了每秒35个token的推理速度，延迟低于700毫秒——足以满足实时分析需求。该公司报告称，与云推理相比，成本降低了90%，同时完全消除了数据传输风险。这一案例凸显了专用推理引擎如何将AI能力带入受监管行业，在这些行业中，数据主权与性能同等重要。

时间归档

延伸阅读

常见问题

这次公司发布“Redis Creator Rewrites AI Inference: DeepSeek V4 Runs Locally on Mac”主要讲了什么？

In a move that bridges systems engineering and AI, Salvatore Sanfilippo—the creator of Redis—has developed a bespoke inference engine for DeepSeek V4, successfully running the mode…

从“DeepSeek V4 local inference Mac performance benchmarks”看，这家公司的这次发布为什么值得关注？

Salvatore Sanfilippo's inference engine for DeepSeek V4 is a masterclass in systems-level optimization. The core innovation lies in how it handles the unique demands of DeepSeek V4's Mixture-of-Experts (MoE) architecture…

围绕“Salvatore Sanfilippo inference engine GitHub repository”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。