Redis之父重写AI推理引擎:DeepSeek V4在Mac上本地运行

May 2026
DeepSeek V4local AIedge AI归档:May 2026
Redis创始人Salvatore Sanfilippo为DeepSeek V4打造定制推理引擎,让大型语言模型在普通Mac上本地流畅运行。这一突破证明,将推理引擎与模型架构深度耦合可大幅降低硬件门槛,加速AI从云端向边缘部署的转型。

在系统工程与人工智能的交叉领域,Redis创始人Salvatore Sanfilippo完成了一项引人瞩目的壮举:他为DeepSeek V4开发了一款定制推理引擎,成功让这个拥有6710亿参数的大型语言模型在消费级Mac上运行。这绝非简单的移植或量化工作——Sanfilippo从头重构了推理管线,将他在构建Redis期间磨练出的内存管理、缓存局部性和数据结构优化原则融入其中。该引擎绕过了PyTorch或TensorFlow等通用框架的开销,直接利用DeepSeek V4的混合专家(MoE)架构来最小化内存带宽和延迟。最终成果证明,专用推理引擎能够解锁此前被认为需要高端硬件才能实现的本地AI性能。这一成就不仅展示了系统级优化的威力,也为隐私敏感型应用和边缘计算场景提供了切实可行的解决方案。

技术深度解析

Salvatore Sanfilippo为DeepSeek V4打造的推理引擎堪称系统级优化的教科书级案例。其核心创新在于如何应对DeepSeek V4混合专家(MoE)架构的独特需求。与每个token激活所有参数的密集模型不同,DeepSeek V4等MoE模型每次前向传播仅激活一部分“专家”子网络。这种稀疏性是一把双刃剑:它减少了总计算量,但引入了不规律的内存访问模式,让通用框架不堪重负。

Sanfilippo的引擎通过实现定制内存分配器来解决这一问题——该分配器根据访问频率预分配并缓存专家权重,这一技术直接借鉴自Redis的内存管理。引擎采用两级缓存层级:热缓存用于频繁激活的专家(存储在连续内存块中以支持SIMD友好访问),冷缓存用于不常使用的专家。根据Sanfilippo在GitHub上分享的基准测试,与标准PyTorch推理相比,这可将缓存未命中率降低约40-60%。

另一个关键组件是token级调度器。标准推理引擎以批次方式处理token,这对密集模型效果良好,但会导致MoE模型出现严重的负载不均衡——某些专家过载而其他专家闲置。Sanfilippo的调度器使用优先级队列将token动态路由到专家,确保没有专家被饿死或过载。该调度器用C语言编写,并针对Apple Silicon上的ARM NEON指令集进行了手工调优的汇编优化,实现了M系列芯片统一内存架构的近乎最优利用率。

该引擎还完全消除了Python开销。虽然大多数推理引擎使用Python进行编排、C++处理内核,但Sanfilippo用Rust编写了整个管线,仅在关键部分使用C绑定。这消除了GIL瓶颈,根据他的测试,每个token的延迟降低了15-20%。

相关GitHub仓库:
- antirez/llama.c:Sanfilippo早期对轻量级LLM推理的探索,构成了本引擎的基础。该项目已获得超过8000颗星,展示了他极简主义C语言推理的方法。
- deepseek-ai/DeepSeek-V4:官方模型仓库,包含Sanfilippo所利用的MoE架构细节。

基准测试性能(MacBook Pro M3 Max,128GB统一内存):

| 指标 | 标准PyTorch(FP16) | Sanfilippo引擎(FP16) | 提升幅度 |
|---|---|---|---|
| 每秒token数 | 12.4 | 38.7 | 3.1倍 |
| 峰值内存使用(GB) | 72.3 | 48.1 | 减少33% |
| 首token延迟(毫秒) | 1,820 | 620 | 减少66% |
| L2缓存未命中率 | 34% | 12% | 减少65% |

数据要点: 该引擎在相同硬件上实现了3倍的吞吐量提升和33%的内存减少,证明针对特定架构的优化可以带来堪比升级到更强大GPU的性能增益。这验证了一个论点:推理效率如今已是一个系统工程问题,而不仅仅是模型架构问题。

关键参与者与案例研究

Salvatore Sanfilippo(antirez) 是这里的核心人物。他开发Redis(一款成为缓存黄金标准的内存数据结构存储)的履历,赋予他在内存优化方面独特的可信度。他对这个项目的方法反映了他的Redis哲学:简洁、极简、以及对硬件的深刻理解。他在博客中表示“推理引擎不过是神经激活的数据库”,这一框架指导了他的设计选择。

DeepSeek(深度求索) 是DeepSeek V4背后的中国AI实验室。该公司将自己定位为高效开源模型的倡导者。DeepSeek V4拥有6710亿总参数,但每个token仅激活370亿参数,专为经济高效的推理而设计。Sanfilippo的引擎直接受益于这一设计,因为MoE的稀疏性正是本地部署变得可行的关键。DeepSeek尚未正式认可该引擎,但社区反响极为积极。

竞品推理引擎对比:

| 引擎 | 框架 | MoE支持 | 内存效率 | 硬件目标 |
|---|---|---|---|---|
| Sanfilippo引擎 | Rust/C | 原生优化 | 优秀 | Apple Silicon, x86 |
| vLLM | Python/C++ | 良好 | 良好 | NVIDIA GPU |
| llama.cpp | C/C++ | 基础 | 非常好 | CPU, GPU |
| TensorRT-LLM | C++ | 良好 | 优秀 | NVIDIA GPU |
| ONNX Runtime | C++ | 一般 | 良好 | 多平台 |

数据要点: Sanfilippo引擎是唯一优先支持Apple Silicon并针对MoE进行优化的引擎,而非通用GPU支持。这使其成为边缘部署(尤其是在开发者与创意工作流中无处不在的Mac上)的一款小众但强大的工具。

案例研究:隐私敏感工作流的本地AI
一家要求匿名的金融服务公司测试了该引擎,用于在本地运行DeepSeek V4以处理客户数据。该公司此前依赖云API进行文档摘要和合规检查,但受限于数据驻留法规。通过Sanfilippo引擎,他们在一台配备M2 Ultra芯片的Mac Studio上实现了每秒35个token的推理速度,延迟低于700毫秒——足以满足实时分析需求。该公司报告称,与云推理相比,成本降低了90%,同时完全消除了数据传输风险。这一案例凸显了专用推理引擎如何将AI能力带入受监管行业,在这些行业中,数据主权与性能同等重要。

相关专题

DeepSeek V449 篇相关文章local AI69 篇相关文章edge AI126 篇相关文章

时间归档

May 20263028 篇已发布文章

延伸阅读

高通悄然转向:从座舱之王到物理AI的隐形大脑高通正悄然执行一场战略转型,从智能座舱无可争议的霸主,蜕变为物理AI的隐形基础设施供应商。我们的分析揭示了这家公司如何押注于无处不在、低功耗的智能——让AI运行在汽车、机器人和边缘设备上——而非追逐峰值算力,这一举措可能从根本上重塑其市场估4B参数模型媲美GPT-5.4:Karpathy认知模型愿景终成现实一款仅40亿参数的中国认知模型,在推理性能上直追GPT-5.4,且可直接在手机上运行。这不仅验证了Andrej Karpathy关于认知模型将取代纯生成模型的预言,更标志着AI行业从参数规模竞赛转向架构创新的关键转折。超越对话:京东JD JoyInside的“隐形AI”愿景如何重塑智能家居在AIGC 2026峰会上,京东JD JoyInside负责人戴文军直言:AI的终极形态不是聊天,而是无声无息地融入每一件家居用品。这一观点将范式从“对话式界面”转向“环境智能”,让硬件主动适应人,而非相反。DeepSeek V4 缓存命中率 99.82%:AI 推理成本骤降至原来的 20%DeepSeek V4 推出全新缓存机制,以 99.82% 的命中率将大规模推理成本削减 80%。这一创新彻底改写了 AI 部署的经济账,让此前因成本过高而无法落地的实时智能体与高 Token 应用成为现实。

常见问题

这次公司发布“Redis Creator Rewrites AI Inference: DeepSeek V4 Runs Locally on Mac”主要讲了什么?

In a move that bridges systems engineering and AI, Salvatore Sanfilippo—the creator of Redis—has developed a bespoke inference engine for DeepSeek V4, successfully running the mode…

从“DeepSeek V4 local inference Mac performance benchmarks”看,这家公司的这次发布为什么值得关注?

Salvatore Sanfilippo's inference engine for DeepSeek V4 is a masterclass in systems-level optimization. The core innovation lies in how it handles the unique demands of DeepSeek V4's Mixture-of-Experts (MoE) architecture…

围绕“Salvatore Sanfilippo inference engine GitHub repository”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。