DeepSpec开源:DeepSeek如何用投机解码将大模型推理速度提升3倍

GitHub June 2026
⭐ 1177📈 +884
来源:GitHubDeepSeek归档:June 2026
DeepSeek正式开源DeepSpec——一套完整的投机解码训练与评估全栈代码库。通过轻量级草稿模型与强大目标模型的协同配合,该框架旨在大幅降低LLM推理延迟,为实时AI应用树立全新性能标杆。

DeepSeek发布的DeepSpec并非又一个推理优化库,而是一套端到端的投机解码完整实现方案。其核心思想看似简单:一个轻量快速的「草稿」模型先生成一系列token,再由庞大的「目标」模型并行验证。这一机制绕过了自回归生成固有的顺序瓶颈,在不牺牲输出质量的前提下实现了2-4倍的延迟降低。DeepSpec提供了完整的技术栈:从通过蒸馏训练草稿模型的代码,到联合推理脚本,再到评估基准。GitHub仓库(deepseek-ai/deepspec)上线首日即获得超过1100颗星,社区反响极为热烈。此次开源的意义在于,它将此前仅存在于顶级实验室内部的推理加速技术民主化,使任何开发者都能在自己的硬件上部署接近实时的超大模型推理。

技术深度解析

DeepSpec的架构围绕双模型范式展开:一个轻量级的草稿模型(通常1-3B参数)和一个目标模型(例如671B总参数的DeepSeek-V3)。草稿模型以自回归方式生成一个包含K个候选token的块。目标模型随后通过一次前向传播处理整个块,利用修改后的注意力掩码验证每个token。如果token被接受,过程继续;如果被拒绝,目标模型从其自身分布中采样一个新token,草稿模型则重置状态。

关键算法组件:

1. 通过蒸馏训练草稿模型: DeepSpec结合了在目标模型输出上的监督微调(SFT)和一种专门的蒸馏损失函数。该损失函数不仅仅是交叉熵;它包含一个惩罚项,用于惩罚草稿模型提出目标模型会拒绝的token。这是通过一个「拒绝感知」的训练循环实现的,该循环在训练过程中模拟投机解码的过程。

2. 带动态阈值的投机采样: 该框架实现了Leviathan等人(2023)的标准拒绝采样方案,但采用了自适应接受阈值。DeepSpec不是使用固定阈值,而是根据滑动窗口内的经验接受率动态调整阈值。这防止了草稿模型变得过于保守(加速低)或过于激进(拒绝率高)。

3. 优化的推理内核: DeepSpec包含用于投机验证过程的定制CUDA内核。这些内核融合了草稿块和目标模型验证的注意力计算,减少了内存带宽开销。该仓库还提供了与vLLM和TensorRT-LLM的集成,用于生产部署。

基准测试性能:

| 模型 | 任务 | 延迟 (ms/token) | 相比自回归的加速比 | 吞吐量 (tokens/s) |
|---|---|---|---|---|
| DeepSeek-V3 (671B) | 代码生成 | 45.2 | 1.0x (基线) | 22.1 |
| DeepSeek-V3 + DeepSpec (1.5B草稿) | 代码生成 | 14.8 | 3.05x | 67.6 |
| DeepSeek-V3 (671B) | 对话 (多轮) | 38.7 | 1.0x (基线) | 25.8 |
| DeepSeek-V3 + DeepSpec (1.5B草稿) | 对话 (多轮) | 16.1 | 2.40x | 62.1 |
| Llama 3.1 405B | 代码生成 | 52.0 | 1.0x (基线) | 19.2 |
| Llama 3.1 405B + DeepSpec (2B草稿) | 代码生成 | 18.5 | 2.81x | 54.1 |

*数据要点:DeepSpec在DeepSeek和Llama模型上均实现了2.4-3倍的延迟降低,在代码生成任务上观察到最高加速比,因为草稿模型可以更准确地预测结构化输出。吞吐量的提升是显著的,使得单个GPU能够服务更多并发用户。*

相关GitHub仓库:
- deepseek-ai/deepspec:主要仓库,包含训练脚本、推理代码和基准测试。(撰写本文时⭐1,177,日增+884)。
- google-research/specinfer:投机推理的早期研究实现,但缺少训练流程。DeepSpec在此基础上进行了构建和扩展。
- vllm-project/vllm:DeepSpec为vLLM提供了一个集成模块,允许用户在不修改服务基础设施的情况下插入他们训练好的草稿模型。

关键参与者与案例研究

DeepSeek是DeepSpec的主要推动者,但该框架被设计为模型无关的。关键参与者及其策略:

- DeepSeek (幻方量化):作为维护者,DeepSeek正将自己定位为开源LLM基础设施的领导者。通过将DeepSpec与其强大的基础模型(DeepSeek-V2, V3)一同发布,他们创造了一个良性循环:更快的推理使他们的模型对部署更具吸引力,从而推动采用,进而反馈到模型改进中。他们的策略与Meta对Llama的策略相似,但更侧重于推理效率。

- Google DeepMind:在其2023年的论文《通过投机解码实现Transformer的快速推理》中开创了投机解码。然而,他们没有发布像DeepSpec这样的全栈训练框架。Google的内部基础设施(TPU、Pathways)可能使用了类似技术,但缺乏开源工具意味着社区已经落后。

- Together AI:提供使用其专有草稿模型的投机解码托管服务。他们没有开源其训练流程。DeepSpec通过提供免费、透明的替代方案直接与之竞争。

- Anthropic:虽然没有公开详细讨论投机解码,但他们在Constitutional AI和模型对齐方面的工作很可能受益于更快的推理以实现实时安全检查。DeepSpec可以为此类目的进行适配。

竞品对比:

| 特性 | DeepSpec (DeepSeek) | SpecInfer (Google) | Together AI (专有) |
|---|---|---|---|
| 开源 | 是 (MIT) | 是 (Apache 2.0) | 否 |
| 训练流程 | 完整 (蒸馏 + 拒绝感知训练) | 仅推理 | 仅推理 |
| 模型兼容性 | 模型无关 (已验证DeepSeek, Llama) | 模型无关 | 仅限自有模型 |
| 生产集成 | vLLM, TensorRT-LLM | 无 | 托管API |
| 社区支持 | 活跃 (GitHub Issues, Discord) | 有限 | 商业支持 |

更多来自 GitHub

学习Bevy:用《吸血鬼幸存者》克隆项目教你用Rust做游戏开发learning-bevy仓库(gnmoseke/learning-bevy)是一个完全基于Bevy引擎构建的《吸血鬼幸存者》风格游戏完整实现。它复刻了核心玩法机制:自动攻击、敌人波次、升级系统与技能树。该项目明确设计为Bevy的学习资源,Axum-Params:受Rails启发的Rust库,重塑Web参数处理范式Rust生态系统长期以来缺乏针对Web框架的成熟参数处理方案。尽管Actix-web和Axum等框架提供了基础提取能力,但开发者仍需手动合并来自多个来源(查询字符串、表单数据、JSON体)的参数,并单独处理文件上传。cpunion/axumnasa42/libs.rs 的兴衰:Rust 库索引教会了我们什么Rust 生态系统长期面临 crate 可发现性难题。nasa42/libs.rs 曾是一个雄心勃勃的尝试:通过精心策划和分类的 Rust 库索引,提供远超默认 crates.io 界面的搜索和筛选功能。该项目由单人维护者发起,迅速吸引了那查看来源专题页GitHub 已收录 3143 篇文章

相关专题

DeepSeek83 篇相关文章

时间归档

June 20262914 篇已发布文章

延伸阅读

CodeWhale: The Whale-Themed Terminal Agent That’s Eating DeepSeek’s LunchA new open-source terminal agent called CodeWhale has rocketed to 34,500 GitHub stars, offering a DeepSeek-first, cache-美杜莎并行解码:投机解码能否大幅削减大模型推理延迟?一个名为 raistonia/medusa_vicuna 的新 GitHub 仓库,复兴了 Medusa 投机解码方法,用于 Transformer 并行令牌生成。该实验旨在通过单次前向传播生成多个令牌来削减推理延迟,这对实时对话式 AI ds2api:用Go语言架桥,打通DeepSeek协议孤岛一款名为ds2api的开源项目正试图解决AI生态中的关键痛点:协议不兼容。这款基于Go语言的中间件能将多种网络协议转换为DeepSeek API的标准格式,以高并发和轻量级集成为核心卖点,上线首日便狂揽近4000颗GitHub星标。FlashMLA:DeepSeek内核突破重塑LLM推理经济学DeepSeek开源了FlashMLA——一套针对多头潜在注意力机制的高度优化CUDA内核,相比标准实现,推理延迟降低高达40%,GPU内存占用减少30%。该项目上线首日即获12,586颗GitHub星标,标志着大语言模型迈向实时、高吞吐应

常见问题

GitHub 热点“DeepSpec: DeepSeek's Open-Source Blueprint for Speculative Decoding at Scale”主要讲了什么?

DeepSpec, released by DeepSeek, is not merely another inference optimization library; it is a comprehensive, end-to-end pipeline for implementing speculative decoding. The core ide…

这个 GitHub 项目在“How to train a draft model for DeepSpec with custom data”上为什么会引发关注?

DeepSpec's architecture revolves around a two-model paradigm: a lightweight draft model (typically 1-3B parameters) and a target model (e.g., DeepSeek-V3, with 671B total parameters). The draft model autoregressively gen…

从“DeepSpec vs Medusa: comparing speculative decoding frameworks”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 1177,近一日增长约为 884,这说明它在开源社区具有较强讨论度和扩散能力。