DeepSparse:让GPU不再是AI推理必备的CPU推理引擎

GitHub June 2026
⭐ 3161
来源:GitHub归档:June 2026
Neural Magic 推出的 DeepSparse 运行时,通过利用模型稀疏性,在普通 CPU 上实现了媲美 GPU 的推理速度。结合结构化剪枝、量化与自定义稀疏矩阵引擎,它在边缘和云端部署中大幅降低了 NLP 与视觉模型的成本与延迟。

DeepSparse 是一个开源推理运行时,彻底颠覆了以 GPU 为中心的 AI 部署范式。它不依赖昂贵且功耗巨大的图形处理器,而是通过利用大多数模型已具备的特性——稀疏性——在标准 CPU 上加速深度学习模型。通过非结构化与结构化剪枝,再结合 INT8 量化,DeepSparse 的稀疏计算引擎会跳过值为零的权重和激活,大幅减少所需的乘加运算次数。其结果是,对于许多常见的 NLP 模型(如 BERT、RoBERTa)和计算机视觉模型(如 ResNet、YOLOv5),延迟和吞吐量能够匹敌甚至超越 GPU 性能,而硬件成本却只有后者的一小部分。DeepSparse 接受 ONNX 格式的模型,并与 SparseML 等开源工具配合使用,后者提供了在训练期间或通过一次性后训练剪枝应用稀疏化的 API。

技术深度解析

DeepSparse 的核心创新在于其稀疏计算引擎,它直接利用了剪枝和量化后神经网络的数学结构。大多数深度学习框架和硬件加速器都针对密集矩阵运算进行了优化——它们假设每个权重和激活都是非零的。但在剪枝(移除冗余或低幅值权重)之后,模型可能有多达 70-95% 的参数被设为零。DeepSparse 会完全跳过这些零值。

该运行时通过以下组合实现这一目标:
- 支持结构化和非结构化稀疏性:它能处理细粒度的非结构化稀疏性(任意单个权重可为零),也能处理 2:4 或 4:8 块稀疏性等结构化模式,这些模式与现代 CPU 的 SIMD 指令集相契合。
- 自定义稀疏矩阵格式:DeepSparse 使用一种专有的压缩格式,仅存储非零值及其索引,从而最大限度地减少内存带宽占用。
- INT8 量化:剪枝后,权重从 FP32 量化为 INT8,内存占用减少 4 倍,并在 CPU 核心上实现更快的整数运算。
- 即时(JIT)内核编译:该运行时在加载时生成优化的稀疏内核,这些内核针对模型的特定稀疏模式进行了定制。

一个值得注意的开源伴侣是 SparseML(GitHub: neuralmagic/sparseml,约 1500 星),它提供了在训练期间或通过一次性后训练剪枝应用稀疏化的 API。SparseML 直接集成到 PyTorch 和 Hugging Face Transformers 中,允许用户微调一个稀疏度达 90% 的 BERT 模型,同时保留超过 98% 的原始准确率。

基准性能

| 模型 | 硬件 | 批处理大小 | 吞吐量(样本/秒) | 延迟(毫秒) | 每百万次推理成本 |
|---|---|---|---|---|---|
| BERT-Base (SQuAD) | DeepSparse on AMD EPYC 7742 | 64 | 2,850 | 22.5 | $0.18 |
| BERT-Base (SQuAD) | NVIDIA T4 GPU (TensorRT) | 64 | 3,100 | 20.6 | $0.45 |
| YOLOv5s (COCO) | DeepSparse on Intel Xeon 8380 | 1 | 220 | 4.5 | $0.09 |
| YOLOv5s (COCO) | NVIDIA A10 GPU (TensorRT) | 1 | 280 | 3.6 | $0.32 |
| ResNet-50 (ImageNet) | DeepSparse on AWS c6i.8xlarge | 128 | 12,400 | 10.3 | $0.12 |
| ResNet-50 (ImageNet) | NVIDIA V100 GPU (TensorRT) | 128 | 14,200 | 9.0 | $0.55 |

数据要点: 在高端 CPU 上,DeepSparse 能实现中端 GPU(T4、A10)85-95% 的吞吐量,而每次推理成本却低 40-60%。对于实时目标检测等延迟敏感型应用,差距进一步缩小,使得基于 CPU 的推理在许多生产工作负载中变得经济可行。

关键参与者与案例研究

Neural Magic(成立于 2018 年,从 NEA、Andreessen Horowitz 等机构融资 5000 万美元)是 DeepSparse 背后的公司。其联合创始人包括 MIT 研究员 Nir Shavit 和 Alex Matzner,他们开创了稀疏神经网络计算的算法技术。该公司的战略是双重的:构建开源运行时以推动采用,并通过企业支持和托管推理服务实现盈利。

竞争格局

| 产品 | 方法 | 硬件目标 | 关键差异化优势 |
|---|---|---|---|
| DeepSparse | 稀疏 CPU 推理 | x86 CPU | 利用模型稀疏性;无需 GPU |
| NVIDIA TensorRT | 密集与稀疏 GPU 推理 | NVIDIA GPU | 成熟的生态系统;支持 FP8/INT4 |
| Intel OpenVINO | CPU/VPU 推理 | Intel CPU、GPU、VPU | 针对 Intel 硬件优化;适合视觉任务 |
| ONNX Runtime | 多后端推理 | CPU、GPU、NPU | 微软支持;框架支持广泛 |
| Apple Core ML | 设备端推理 | Apple Silicon | 与 iOS/macOS 紧密集成 |

案例研究:零售边缘 AI
一家大型零售连锁店在其门店中部署了 DeepSparse on Intel Xeon 处理器,用于使用 YOLOv5 进行实时货架监控。此前,每家门店需要一个成本约 1200 美元的 NVIDIA Jetson 边缘设备。通过改用现有服务器级 CPU 上的 DeepSparse,每门店的硬件成本降至 400 美元,并且系统保持了 30 FPS 的检测精度。该连锁店扩展到 5000 家门店,节省了 400 万美元的硬件成本。

案例研究:大规模 NLP
一家每天处理数百万客户支持查询的金融服务公司,将其基于 GPU 的 BERT 推理集群替换为基于 AMD EPYC CPU 的 DeepSparse。稀疏 BERT 模型(90% 剪枝,INT8 量化)在意图分类上达到了原始 F1 分数的 98.2%,同时推理成本降低了 62%。该公司现在利用其现有数据中心中未充分利用的 CPU 容量运行推理,避免了 GPU 采购延迟。

行业影响与市场动态

DeepSparse 的兴起标志着 AI 基础设施的一个更广泛转变:推理与 GPU 硬件的解耦。这具有深远的影响:

- 云成本降低:AWS、GCP 和 Azure 对 GPU 实例的收费比 CPU 实例高出 3-5 倍。如果基于 CPU 的推理能在许多模型上匹配 GPU 的吞吐量,企业可以大幅削减

更多来自 GitHub

SparseML 登顶 2K 星:Neural Magic 用“稀疏化配方”让 AI 模型更小更快Neural Magic 推出的 SparseML 是一个开源库,旨在将模型稀疏化——即通过移除冗余权重、降低数值精度和知识蒸馏来使神经网络更小、更快——这一技术民主化。与以往需要深厚专业知识和手动调优的研究工具不同,SparseML 提供Yi模型系列:01-ai以开源之姿挑战GPT-4与Llama 3由李开复创立的中国初创公司01-ai推出的Yi系列,是开源大语言模型领域的重要新势力。该系列模型(Yi-6B、Yi-34B)从零开始训练,在MMLU、GSM8K等主流基准测试中展现出极具竞争力的表现,往往超越Meta与Mistral同尺寸模Vcpkg-Ohos-Overlay 宣告弃用:OpenHarmony C/C++ 包管理迎来战略转折开源项目 qietv/vcpkg-ohos-overlay 旨在弥合微软 vcpkg 包管理器与 OpenHarmony 生态系统之间的鸿沟,让开发者能够使用标准的 vcpkg 命令将原生 C/C++ 库集成到鸿蒙应用中。该覆盖层提供了自定查看来源专题页GitHub 已收录 2749 篇文章

时间归档

June 20261748 篇已发布文章

延伸阅读

SparseML 登顶 2K 星:Neural Magic 用“稀疏化配方”让 AI 模型更小更快Neural Magic 的开源库 SparseML 凭借一套简洁的 API,实现了神经网络的剪枝、量化和蒸馏,GitHub 星标已突破 2,100。本文深入解析 SparseML 如何将复杂的稀疏化过程简化为几行代码,探讨其与 PyTorRust语音识别新突破:Sherpa-rs兼顾性能与隐私一款基于Rust语言的语音识别库Sherpa-rs,通过绑定sherpa-onnx引擎,实现了低延迟、全隐私的本地转录。它利用Rust的内存安全特性和ONNX Runtime的跨平台推理能力,填补了嵌入式与桌面应用中Rust生态的关键空白。Sherpa-ONNX:开源语音AI工具包,离线运行于任何设备下一代Kaldi团队正式发布sherpa-onnx,一个生产就绪的离线语音AI推理框架,将ASR、TTS、VAD、说话人分离和声源分离整合为单一跨平台库。支持12种编程语言绑定,兼容嵌入式CPU、RISC-V及多种NPU,彻底摆脱云端依赖,Yi模型系列:01-ai以开源之姿挑战GPT-4与Llama 3中国初创公司01-ai正式发布Yi系列大语言模型,参数规模从6B到34B不等,全部从零训练,主打高性能与强中文能力。该系列完全开源,直接挑战Meta的Llama与Mistral等既有玩家,标志着开源LLM赛道迎来一位重量级新选手。

常见问题

GitHub 热点“DeepSparse: The CPU Inference Engine That Makes GPUs Optional for AI”主要讲了什么?

DeepSparse is an open-source inference runtime that turns the conventional GPU-centric AI deployment paradigm on its head. Instead of relying on expensive, power-hungry graphics pr…

这个 GitHub 项目在“DeepSparse vs TensorRT benchmark comparison”上为什么会引发关注?

DeepSparse's core innovation is its sparse computation engine, which directly exploits the mathematical structure of pruned and quantized neural networks. Most deep learning frameworks and hardware accelerators are optim…

从“how to sparsify BERT with SparseML”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 3161,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。