DeepSpec开源：DeepSeek如何用投机解码将大模型推理速度提升3倍

DeepSeek发布的DeepSpec并非又一个推理优化库，而是一套端到端的投机解码完整实现方案。其核心思想看似简单：一个轻量快速的「草稿」模型先生成一系列token，再由庞大的「目标」模型并行验证。这一机制绕过了自回归生成固有的顺序瓶颈，在不牺牲输出质量的前提下实现了2-4倍的延迟降低。DeepSpec提供了完整的技术栈：从通过蒸馏训练草稿模型的代码，到联合推理脚本，再到评估基准。GitHub仓库（deepseek-ai/deepspec）上线首日即获得超过1100颗星，社区反响极为热烈。此次开源的意义在于，它将此前仅存在于顶级实验室内部的推理加速技术民主化，使任何开发者都能在自己的硬件上部署接近实时的超大模型推理。

技术深度解析

DeepSpec的架构围绕双模型范式展开：一个轻量级的草稿模型（通常1-3B参数）和一个目标模型（例如671B总参数的DeepSeek-V3）。草稿模型以自回归方式生成一个包含K个候选token的块。目标模型随后通过一次前向传播处理整个块，利用修改后的注意力掩码验证每个token。如果token被接受，过程继续；如果被拒绝，目标模型从其自身分布中采样一个新token，草稿模型则重置状态。

关键算法组件：

1. 通过蒸馏训练草稿模型： DeepSpec结合了在目标模型输出上的监督微调（SFT）和一种专门的蒸馏损失函数。该损失函数不仅仅是交叉熵；它包含一个惩罚项，用于惩罚草稿模型提出目标模型会拒绝的token。这是通过一个「拒绝感知」的训练循环实现的，该循环在训练过程中模拟投机解码的过程。

2. 带动态阈值的投机采样： 该框架实现了Leviathan等人（2023）的标准拒绝采样方案，但采用了自适应接受阈值。DeepSpec不是使用固定阈值，而是根据滑动窗口内的经验接受率动态调整阈值。这防止了草稿模型变得过于保守（加速低）或过于激进（拒绝率高）。

3. 优化的推理内核： DeepSpec包含用于投机验证过程的定制CUDA内核。这些内核融合了草稿块和目标模型验证的注意力计算，减少了内存带宽开销。该仓库还提供了与vLLM和TensorRT-LLM的集成，用于生产部署。

基准测试性能：

| 模型 | 任务 | 延迟 (ms/token) | 相比自回归的加速比 | 吞吐量 (tokens/s) |
|---|---|---|---|---|
| DeepSeek-V3 (671B) | 代码生成 | 45.2 | 1.0x (基线) | 22.1 |
| DeepSeek-V3 + DeepSpec (1.5B草稿) | 代码生成 | 14.8 | 3.05x | 67.6 |
| DeepSeek-V3 (671B) | 对话 (多轮) | 38.7 | 1.0x (基线) | 25.8 |
| DeepSeek-V3 + DeepSpec (1.5B草稿) | 对话 (多轮) | 16.1 | 2.40x | 62.1 |
| Llama 3.1 405B | 代码生成 | 52.0 | 1.0x (基线) | 19.2 |
| Llama 3.1 405B + DeepSpec (2B草稿) | 代码生成 | 18.5 | 2.81x | 54.1 |

*数据要点：DeepSpec在DeepSeek和Llama模型上均实现了2.4-3倍的延迟降低，在代码生成任务上观察到最高加速比，因为草稿模型可以更准确地预测结构化输出。吞吐量的提升是显著的，使得单个GPU能够服务更多并发用户。*

相关GitHub仓库：
- deepseek-ai/deepspec：主要仓库，包含训练脚本、推理代码和基准测试。（撰写本文时⭐1,177，日增+884）。
- google-research/specinfer：投机推理的早期研究实现，但缺少训练流程。DeepSpec在此基础上进行了构建和扩展。
- vllm-project/vllm：DeepSpec为vLLM提供了一个集成模块，允许用户在不修改服务基础设施的情况下插入他们训练好的草稿模型。

关键参与者与案例研究

DeepSeek是DeepSpec的主要推动者，但该框架被设计为模型无关的。关键参与者及其策略：

- DeepSeek (幻方量化)：作为维护者，DeepSeek正将自己定位为开源LLM基础设施的领导者。通过将DeepSpec与其强大的基础模型（DeepSeek-V2, V3）一同发布，他们创造了一个良性循环：更快的推理使他们的模型对部署更具吸引力，从而推动采用，进而反馈到模型改进中。他们的策略与Meta对Llama的策略相似，但更侧重于推理效率。

- Google DeepMind：在其2023年的论文《通过投机解码实现Transformer的快速推理》中开创了投机解码。然而，他们没有发布像DeepSpec这样的全栈训练框架。Google的内部基础设施（TPU、Pathways）可能使用了类似技术，但缺乏开源工具意味着社区已经落后。

- Together AI：提供使用其专有草稿模型的投机解码托管服务。他们没有开源其训练流程。DeepSpec通过提供免费、透明的替代方案直接与之竞争。

- Anthropic：虽然没有公开详细讨论投机解码，但他们在Constitutional AI和模型对齐方面的工作很可能受益于更快的推理以实现实时安全检查。DeepSpec可以为此类目的进行适配。

竞品对比：

| 特性 | DeepSpec (DeepSeek) | SpecInfer (Google) | Together AI (专有) |
|---|---|---|---|
| 开源 | 是 (MIT) | 是 (Apache 2.0) | 否 |
| 训练流程 | 完整 (蒸馏 + 拒绝感知训练) | 仅推理 | 仅推理 |
| 模型兼容性 | 模型无关 (已验证DeepSeek, Llama) | 模型无关 | 仅限自有模型 |
| 生产集成 | vLLM, TensorRT-LLM | 无 | 托管API |
| 社区支持 | 活跃 (GitHub Issues, Discord) | 有限 | 商业支持 |

时间归档

延伸阅读

常见问题

GitHub 热点“DeepSpec: DeepSeek's Open-Source Blueprint for Speculative Decoding at Scale”主要讲了什么？

DeepSpec, released by DeepSeek, is not merely another inference optimization library; it is a comprehensive, end-to-end pipeline for implementing speculative decoding. The core ide…

这个 GitHub 项目在“How to train a draft model for DeepSpec with custom data”上为什么会引发关注？

DeepSpec's architecture revolves around a two-model paradigm: a lightweight draft model (typically 1-3B parameters) and a target model (e.g., DeepSeek-V3, with 671B total parameters). The draft model autoregressively gen…

从“DeepSpec vs Medusa: comparing speculative decoding frameworks”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 1177，近一日增长约为 884，这说明它在开源社区具有较强讨论度和扩散能力。