DeepSparse：让GPU不再是AI推理必备的CPU推理引擎

2026年6月18日 19:04 AINews GitHub June 2026

⭐ 3161

Neural Magic 推出的 DeepSparse 运行时，通过利用模型稀疏性，在普通 CPU 上实现了媲美 GPU 的推理速度。结合结构化剪枝、量化与自定义稀疏矩阵引擎，它在边缘和云端部署中大幅降低了 NLP 与视觉模型的成本与延迟。

DeepSparse 是一个开源推理运行时，彻底颠覆了以 GPU 为中心的 AI 部署范式。它不依赖昂贵且功耗巨大的图形处理器，而是通过利用大多数模型已具备的特性——稀疏性——在标准 CPU 上加速深度学习模型。通过非结构化与结构化剪枝，再结合 INT8 量化，DeepSparse 的稀疏计算引擎会跳过值为零的权重和激活，大幅减少所需的乘加运算次数。其结果是，对于许多常见的 NLP 模型（如 BERT、RoBERTa）和计算机视觉模型（如 ResNet、YOLOv5），延迟和吞吐量能够匹敌甚至超越 GPU 性能，而硬件成本却只有后者的一小部分。DeepSparse 接受 ONNX 格式的模型，并与 SparseML 等开源工具配合使用，后者提供了在训练期间或通过一次性后训练剪枝应用稀疏化的 API。

技术深度解析

DeepSparse 的核心创新在于其稀疏计算引擎，它直接利用了剪枝和量化后神经网络的数学结构。大多数深度学习框架和硬件加速器都针对密集矩阵运算进行了优化——它们假设每个权重和激活都是非零的。但在剪枝（移除冗余或低幅值权重）之后，模型可能有多达 70-95% 的参数被设为零。DeepSparse 会完全跳过这些零值。

该运行时通过以下组合实现这一目标：
- 支持结构化和非结构化稀疏性：它能处理细粒度的非结构化稀疏性（任意单个权重可为零），也能处理 2:4 或 4:8 块稀疏性等结构化模式，这些模式与现代 CPU 的 SIMD 指令集相契合。
- 自定义稀疏矩阵格式：DeepSparse 使用一种专有的压缩格式，仅存储非零值及其索引，从而最大限度地减少内存带宽占用。
- INT8 量化：剪枝后，权重从 FP32 量化为 INT8，内存占用减少 4 倍，并在 CPU 核心上实现更快的整数运算。
- 即时（JIT）内核编译：该运行时在加载时生成优化的稀疏内核，这些内核针对模型的特定稀疏模式进行了定制。

一个值得注意的开源伴侣是 SparseML（GitHub: neuralmagic/sparseml，约 1500 星），它提供了在训练期间或通过一次性后训练剪枝应用稀疏化的 API。SparseML 直接集成到 PyTorch 和 Hugging Face Transformers 中，允许用户微调一个稀疏度达 90% 的 BERT 模型，同时保留超过 98% 的原始准确率。

基准性能

| 模型 | 硬件 | 批处理大小 | 吞吐量（样本/秒） | 延迟（毫秒） | 每百万次推理成本 |
|---|---|---|---|---|---|
| BERT-Base (SQuAD) | DeepSparse on AMD EPYC 7742 | 64 | 2,850 | 22.5 | $0.18 |
| BERT-Base (SQuAD) | NVIDIA T4 GPU (TensorRT) | 64 | 3,100 | 20.6 | $0.45 |
| YOLOv5s (COCO) | DeepSparse on Intel Xeon 8380 | 1 | 220 | 4.5 | $0.09 |
| YOLOv5s (COCO) | NVIDIA A10 GPU (TensorRT) | 1 | 280 | 3.6 | $0.32 |
| ResNet-50 (ImageNet) | DeepSparse on AWS c6i.8xlarge | 128 | 12,400 | 10.3 | $0.12 |
| ResNet-50 (ImageNet) | NVIDIA V100 GPU (TensorRT) | 128 | 14,200 | 9.0 | $0.55 |

数据要点： 在高端 CPU 上，DeepSparse 能实现中端 GPU（T4、A10）85-95% 的吞吐量，而每次推理成本却低 40-60%。对于实时目标检测等延迟敏感型应用，差距进一步缩小，使得基于 CPU 的推理在许多生产工作负载中变得经济可行。

关键参与者与案例研究

Neural Magic（成立于 2018 年，从 NEA、Andreessen Horowitz 等机构融资 5000 万美元）是 DeepSparse 背后的公司。其联合创始人包括 MIT 研究员 Nir Shavit 和 Alex Matzner，他们开创了稀疏神经网络计算的算法技术。该公司的战略是双重的：构建开源运行时以推动采用，并通过企业支持和托管推理服务实现盈利。

竞争格局

| 产品 | 方法 | 硬件目标 | 关键差异化优势 |
|---|---|---|---|
| DeepSparse | 稀疏 CPU 推理 | x86 CPU | 利用模型稀疏性；无需 GPU |
| NVIDIA TensorRT | 密集与稀疏 GPU 推理 | NVIDIA GPU | 成熟的生态系统；支持 FP8/INT4 |
| Intel OpenVINO | CPU/VPU 推理 | Intel CPU、GPU、VPU | 针对 Intel 硬件优化；适合视觉任务 |
| ONNX Runtime | 多后端推理 | CPU、GPU、NPU | 微软支持；框架支持广泛 |
| Apple Core ML | 设备端推理 | Apple Silicon | 与 iOS/macOS 紧密集成 |

案例研究：零售边缘 AI
一家大型零售连锁店在其门店中部署了 DeepSparse on Intel Xeon 处理器，用于使用 YOLOv5 进行实时货架监控。此前，每家门店需要一个成本约 1200 美元的 NVIDIA Jetson 边缘设备。通过改用现有服务器级 CPU 上的 DeepSparse，每门店的硬件成本降至 400 美元，并且系统保持了 30 FPS 的检测精度。该连锁店扩展到 5000 家门店，节省了 400 万美元的硬件成本。

案例研究：大规模 NLP
一家每天处理数百万客户支持查询的金融服务公司，将其基于 GPU 的 BERT 推理集群替换为基于 AMD EPYC CPU 的 DeepSparse。稀疏 BERT 模型（90% 剪枝，INT8 量化）在意图分类上达到了原始 F1 分数的 98.2%，同时推理成本降低了 62%。该公司现在利用其现有数据中心中未充分利用的 CPU 容量运行推理，避免了 GPU 采购延迟。

行业影响与市场动态

DeepSparse 的兴起标志着 AI 基础设施的一个更广泛转变：推理与 GPU 硬件的解耦。这具有深远的影响：

- 云成本降低：AWS、GCP 和 Azure 对 GPU 实例的收费比 CPU 实例高出 3-5 倍。如果基于 CPU 的推理能在许多模型上匹配 GPU 的吞吐量，企业可以大幅削减

常见问题

GitHub 热点“DeepSparse: The CPU Inference Engine That Makes GPUs Optional for AI”主要讲了什么？

DeepSparse is an open-source inference runtime that turns the conventional GPU-centric AI deployment paradigm on its head. Instead of relying on expensive, power-hungry graphics pr…

这个 GitHub 项目在“DeepSparse vs TensorRT benchmark comparison”上为什么会引发关注？

DeepSparse's core innovation is its sparse computation engine, which directly exploits the mathematical structure of pruned and quantized neural networks. Most deep learning frameworks and hardware accelerators are optim…

从“how to sparsify BERT with SparseML”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 3161，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。