Redis之父重写AI推理引擎:DeepSeek V4在Mac上本地运行

May 2026
DeepSeek V4local AIedge AI归档:May 2026
Redis创始人Salvatore Sanfilippo为DeepSeek V4打造定制推理引擎,让大型语言模型在普通Mac上本地流畅运行。这一突破证明,将推理引擎与模型架构深度耦合可大幅降低硬件门槛,加速AI从云端向边缘部署的转型。

在系统工程与人工智能的交叉领域,Redis创始人Salvatore Sanfilippo完成了一项引人瞩目的壮举:他为DeepSeek V4开发了一款定制推理引擎,成功让这个拥有6710亿参数的大型语言模型在消费级Mac上运行。这绝非简单的移植或量化工作——Sanfilippo从头重构了推理管线,将他在构建Redis期间磨练出的内存管理、缓存局部性和数据结构优化原则融入其中。该引擎绕过了PyTorch或TensorFlow等通用框架的开销,直接利用DeepSeek V4的混合专家(MoE)架构来最小化内存带宽和延迟。最终成果证明,专用推理引擎能够解锁此前被认为需要高端硬件才能实现的本地AI性能。这一成就不仅展示了系统级优化的威力,也为隐私敏感型应用和边缘计算场景提供了切实可行的解决方案。

技术深度解析

Salvatore Sanfilippo为DeepSeek V4打造的推理引擎堪称系统级优化的教科书级案例。其核心创新在于如何应对DeepSeek V4混合专家(MoE)架构的独特需求。与每个token激活所有参数的密集模型不同,DeepSeek V4等MoE模型每次前向传播仅激活一部分“专家”子网络。这种稀疏性是一把双刃剑:它减少了总计算量,但引入了不规律的内存访问模式,让通用框架不堪重负。

Sanfilippo的引擎通过实现定制内存分配器来解决这一问题——该分配器根据访问频率预分配并缓存专家权重,这一技术直接借鉴自Redis的内存管理。引擎采用两级缓存层级:热缓存用于频繁激活的专家(存储在连续内存块中以支持SIMD友好访问),冷缓存用于不常使用的专家。根据Sanfilippo在GitHub上分享的基准测试,与标准PyTorch推理相比,这可将缓存未命中率降低约40-60%。

另一个关键组件是token级调度器。标准推理引擎以批次方式处理token,这对密集模型效果良好,但会导致MoE模型出现严重的负载不均衡——某些专家过载而其他专家闲置。Sanfilippo的调度器使用优先级队列将token动态路由到专家,确保没有专家被饿死或过载。该调度器用C语言编写,并针对Apple Silicon上的ARM NEON指令集进行了手工调优的汇编优化,实现了M系列芯片统一内存架构的近乎最优利用率。

该引擎还完全消除了Python开销。虽然大多数推理引擎使用Python进行编排、C++处理内核,但Sanfilippo用Rust编写了整个管线,仅在关键部分使用C绑定。这消除了GIL瓶颈,根据他的测试,每个token的延迟降低了15-20%。

相关GitHub仓库:
- antirez/llama.c:Sanfilippo早期对轻量级LLM推理的探索,构成了本引擎的基础。该项目已获得超过8000颗星,展示了他极简主义C语言推理的方法。
- deepseek-ai/DeepSeek-V4:官方模型仓库,包含Sanfilippo所利用的MoE架构细节。

基准测试性能(MacBook Pro M3 Max,128GB统一内存):

| 指标 | 标准PyTorch(FP16) | Sanfilippo引擎(FP16) | 提升幅度 |
|---|---|---|---|
| 每秒token数 | 12.4 | 38.7 | 3.1倍 |
| 峰值内存使用(GB) | 72.3 | 48.1 | 减少33% |
| 首token延迟(毫秒) | 1,820 | 620 | 减少66% |
| L2缓存未命中率 | 34% | 12% | 减少65% |

数据要点: 该引擎在相同硬件上实现了3倍的吞吐量提升和33%的内存减少,证明针对特定架构的优化可以带来堪比升级到更强大GPU的性能增益。这验证了一个论点:推理效率如今已是一个系统工程问题,而不仅仅是模型架构问题。

关键参与者与案例研究

Salvatore Sanfilippo(antirez) 是这里的核心人物。他开发Redis(一款成为缓存黄金标准的内存数据结构存储)的履历,赋予他在内存优化方面独特的可信度。他对这个项目的方法反映了他的Redis哲学:简洁、极简、以及对硬件的深刻理解。他在博客中表示“推理引擎不过是神经激活的数据库”,这一框架指导了他的设计选择。

DeepSeek(深度求索) 是DeepSeek V4背后的中国AI实验室。该公司将自己定位为高效开源模型的倡导者。DeepSeek V4拥有6710亿总参数,但每个token仅激活370亿参数,专为经济高效的推理而设计。Sanfilippo的引擎直接受益于这一设计,因为MoE的稀疏性正是本地部署变得可行的关键。DeepSeek尚未正式认可该引擎,但社区反响极为积极。

竞品推理引擎对比:

| 引擎 | 框架 | MoE支持 | 内存效率 | 硬件目标 |
|---|---|---|---|---|
| Sanfilippo引擎 | Rust/C | 原生优化 | 优秀 | Apple Silicon, x86 |
| vLLM | Python/C++ | 良好 | 良好 | NVIDIA GPU |
| llama.cpp | C/C++ | 基础 | 非常好 | CPU, GPU |
| TensorRT-LLM | C++ | 良好 | 优秀 | NVIDIA GPU |
| ONNX Runtime | C++ | 一般 | 良好 | 多平台 |

数据要点: Sanfilippo引擎是唯一优先支持Apple Silicon并针对MoE进行优化的引擎,而非通用GPU支持。这使其成为边缘部署(尤其是在开发者与创意工作流中无处不在的Mac上)的一款小众但强大的工具。

案例研究:隐私敏感工作流的本地AI
一家要求匿名的金融服务公司测试了该引擎,用于在本地运行DeepSeek V4以处理客户数据。该公司此前依赖云API进行文档摘要和合规检查,但受限于数据驻留法规。通过Sanfilippo引擎,他们在一台配备M2 Ultra芯片的Mac Studio上实现了每秒35个token的推理速度,延迟低于700毫秒——足以满足实时分析需求。该公司报告称,与云推理相比,成本降低了90%,同时完全消除了数据传输风险。这一案例凸显了专用推理引擎如何将AI能力带入受监管行业,在这些行业中,数据主权与性能同等重要。

相关专题

DeepSeek V440 篇相关文章local AI60 篇相关文章edge AI76 篇相关文章

时间归档

May 20261212 篇已发布文章

延伸阅读

DeepSeek V4缺失记忆层:速度竞赛中的战略盲点DeepSeek V4以创纪录的推理速度和参数效率震撼业界,但AINews独家调查发现其关键架构缺陷:完全移除“记忆痕迹层”。这一结构性缺失严重削弱了长程叙事连贯性、个性化交互与持续学习能力,引发对其在智能体与世界模型应用场景中准备度的质疑DeepSeek V4的秘密武器:稀疏注意力革命,推理成本直降40%DeepSeek V4的技术报告隐藏着一枚重磅炸弹:一种全新的稀疏注意力机制,能在推理过程中动态剪枝无关词元,将计算成本削减近40%,同时保持长上下文精度。这是DeepSeek打破“模型越大,价格越高”铁律的全力一搏。DeepSeek V4 永久降价:缓存命中优惠让编程成本狂降 83%DeepSeek 宣布永久下调 V4 模型价格,其中缓存命中价格额外降低 90%,推动整体编程成本下降 83%。这一战略举措将高性能大语言模型推理成本推向新低,有望引爆一波 AI 原生应用浪潮。DeepSeek核心作者加盟元戎启行打造VLA大模型,研发效率飙升10倍元戎启行发布首个视觉-语言-行动(VLA)基础模型,由DeepSeek V4四位核心作者之一阮崇领衔。该模型将大语言模型推理与具身行动控制深度融合,实现研发效率10倍提升,标志着自动驾驶从模块化走向端到端统一智能的范式转变。

常见问题

这次公司发布“Redis Creator Rewrites AI Inference: DeepSeek V4 Runs Locally on Mac”主要讲了什么?

In a move that bridges systems engineering and AI, Salvatore Sanfilippo—the creator of Redis—has developed a bespoke inference engine for DeepSeek V4, successfully running the mode…

从“DeepSeek V4 local inference Mac performance benchmarks”看,这家公司的这次发布为什么值得关注?

Salvatore Sanfilippo's inference engine for DeepSeek V4 is a masterclass in systems-level optimization. The core innovation lies in how it handles the unique demands of DeepSeek V4's Mixture-of-Experts (MoE) architecture…

围绕“Salvatore Sanfilippo inference engine GitHub repository”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。