技术深度解析
DeepSparse 的核心创新在于其稀疏计算引擎,它直接利用了剪枝和量化后神经网络的数学结构。大多数深度学习框架和硬件加速器都针对密集矩阵运算进行了优化——它们假设每个权重和激活都是非零的。但在剪枝(移除冗余或低幅值权重)之后,模型可能有多达 70-95% 的参数被设为零。DeepSparse 会完全跳过这些零值。
该运行时通过以下组合实现这一目标:
- 支持结构化和非结构化稀疏性:它能处理细粒度的非结构化稀疏性(任意单个权重可为零),也能处理 2:4 或 4:8 块稀疏性等结构化模式,这些模式与现代 CPU 的 SIMD 指令集相契合。
- 自定义稀疏矩阵格式:DeepSparse 使用一种专有的压缩格式,仅存储非零值及其索引,从而最大限度地减少内存带宽占用。
- INT8 量化:剪枝后,权重从 FP32 量化为 INT8,内存占用减少 4 倍,并在 CPU 核心上实现更快的整数运算。
- 即时(JIT)内核编译:该运行时在加载时生成优化的稀疏内核,这些内核针对模型的特定稀疏模式进行了定制。
一个值得注意的开源伴侣是 SparseML(GitHub: neuralmagic/sparseml,约 1500 星),它提供了在训练期间或通过一次性后训练剪枝应用稀疏化的 API。SparseML 直接集成到 PyTorch 和 Hugging Face Transformers 中,允许用户微调一个稀疏度达 90% 的 BERT 模型,同时保留超过 98% 的原始准确率。
基准性能
| 模型 | 硬件 | 批处理大小 | 吞吐量(样本/秒) | 延迟(毫秒) | 每百万次推理成本 |
|---|---|---|---|---|---|
| BERT-Base (SQuAD) | DeepSparse on AMD EPYC 7742 | 64 | 2,850 | 22.5 | $0.18 |
| BERT-Base (SQuAD) | NVIDIA T4 GPU (TensorRT) | 64 | 3,100 | 20.6 | $0.45 |
| YOLOv5s (COCO) | DeepSparse on Intel Xeon 8380 | 1 | 220 | 4.5 | $0.09 |
| YOLOv5s (COCO) | NVIDIA A10 GPU (TensorRT) | 1 | 280 | 3.6 | $0.32 |
| ResNet-50 (ImageNet) | DeepSparse on AWS c6i.8xlarge | 128 | 12,400 | 10.3 | $0.12 |
| ResNet-50 (ImageNet) | NVIDIA V100 GPU (TensorRT) | 128 | 14,200 | 9.0 | $0.55 |
数据要点: 在高端 CPU 上,DeepSparse 能实现中端 GPU(T4、A10)85-95% 的吞吐量,而每次推理成本却低 40-60%。对于实时目标检测等延迟敏感型应用,差距进一步缩小,使得基于 CPU 的推理在许多生产工作负载中变得经济可行。
关键参与者与案例研究
Neural Magic(成立于 2018 年,从 NEA、Andreessen Horowitz 等机构融资 5000 万美元)是 DeepSparse 背后的公司。其联合创始人包括 MIT 研究员 Nir Shavit 和 Alex Matzner,他们开创了稀疏神经网络计算的算法技术。该公司的战略是双重的:构建开源运行时以推动采用,并通过企业支持和托管推理服务实现盈利。
竞争格局
| 产品 | 方法 | 硬件目标 | 关键差异化优势 |
|---|---|---|---|
| DeepSparse | 稀疏 CPU 推理 | x86 CPU | 利用模型稀疏性;无需 GPU |
| NVIDIA TensorRT | 密集与稀疏 GPU 推理 | NVIDIA GPU | 成熟的生态系统;支持 FP8/INT4 |
| Intel OpenVINO | CPU/VPU 推理 | Intel CPU、GPU、VPU | 针对 Intel 硬件优化;适合视觉任务 |
| ONNX Runtime | 多后端推理 | CPU、GPU、NPU | 微软支持;框架支持广泛 |
| Apple Core ML | 设备端推理 | Apple Silicon | 与 iOS/macOS 紧密集成 |
案例研究:零售边缘 AI
一家大型零售连锁店在其门店中部署了 DeepSparse on Intel Xeon 处理器,用于使用 YOLOv5 进行实时货架监控。此前,每家门店需要一个成本约 1200 美元的 NVIDIA Jetson 边缘设备。通过改用现有服务器级 CPU 上的 DeepSparse,每门店的硬件成本降至 400 美元,并且系统保持了 30 FPS 的检测精度。该连锁店扩展到 5000 家门店,节省了 400 万美元的硬件成本。
案例研究:大规模 NLP
一家每天处理数百万客户支持查询的金融服务公司,将其基于 GPU 的 BERT 推理集群替换为基于 AMD EPYC CPU 的 DeepSparse。稀疏 BERT 模型(90% 剪枝,INT8 量化)在意图分类上达到了原始 F1 分数的 98.2%,同时推理成本降低了 62%。该公司现在利用其现有数据中心中未充分利用的 CPU 容量运行推理,避免了 GPU 采购延迟。
行业影响与市场动态
DeepSparse 的兴起标志着 AI 基础设施的一个更广泛转变:推理与 GPU 硬件的解耦。这具有深远的影响:
- 云成本降低:AWS、GCP 和 Azure 对 GPU 实例的收费比 CPU 实例高出 3-5 倍。如果基于 CPU 的推理能在许多模型上匹配 GPU 的吞吐量,企业可以大幅削减