Gemma 4 多令牌草稿模型突破 LLM 速度瓶颈——揭秘其工作原理

Hacker News May 2026
来源:Hacker News归档:May 2026
Gemma 4 引入多令牌预测草稿模型,能在单次前向传播中生成多个未来令牌,大幅降低推理延迟且不牺牲输出质量。这项推测解码技术重新定义了从对话代理到代码生成的实时 AI 应用,标志着行业向优化整个推理管道的关键转变。

大型语言模型的部署长期以来受限于令牌生成的顺序特性。每个令牌必须在前一个预测完成后才能开始生成,这造成了固有的延迟,限制了实时应用。Gemma 4 的多令牌预测草稿模型打破了这一限制,采用轻量级草稿模型同时提出多个未来令牌,再由主模型并行验证和优化。这种方法基于推测解码,将串行过程转化为并行过程,在生产基准测试中实现了 2-5 倍的延迟降低。草稿模型是一个更小、更快的网络,经过训练可从相同的隐藏状态预测一组未来令牌,实际上充当了一个“草稿引擎”,提前进行猜测。主模型则是一个更大的模型,负责验证和精炼这些草稿。这一突破不仅提升了性能,还为实时 AI 应用开辟了新可能,从聊天机器人到代码补全工具都将受益。

技术深度解析

Gemma 4 的多令牌预测草稿模型代表了推测解码技术的一种精妙应用,该技术最早由 Google 及其他机构的研究人员正式提出。其核心思想是使用一个小型、快速的“草稿”模型在单次前向传播中生成一组候选令牌(例如 4-8 个令牌)。然后,主模型并行处理这组令牌,验证每个令牌的有效性。如果某个令牌被接受,其后续令牌也会被接受;如果被拒绝,则回滚到最后一个被接受的令牌,并由主模型确定性地生成下一个令牌。

草稿模型本身是一个轻量级 Transformer,通常拥有 1-2 亿参数,专门训练用于从相同的隐藏状态预测多个未来令牌。这与标准的自回归模型不同,后者一次只预测一个令牌。草稿模型的训练目标是最大化在给定当前上下文的情况下,未来令牌序列的概率。这是通过一个修改后的损失函数实现的,该函数对整个令牌组的交叉熵损失进行求和。

一个关键的工程细节是接受率。主模型的验证步骤采用拒绝采样方案:它计算每个草稿令牌在其自身分布下的概率。如果草稿令牌的概率高于主模型的概率,则被接受;否则,以与两个概率之比成比例的概率被接受。这确保了输出分布保持无偏——最终输出在统计上与逐个生成令牌的模型无法区分。

内部评估的基准数据展示了显著的延迟改进:

| 模型变体 | 延迟 (毫秒/令牌) | 吞吐量 (令牌/秒) | 接受率 | 质量 (MMLU) |
|---|---|---|---|---|
| Gemma 4 (标准) | 45 | 22 | — | 88.5 |
| Gemma 4 + 4-令牌草稿 | 12 | 83 | 72% | 88.4 |
| Gemma 4 + 8-令牌草稿 | 9 | 111 | 58% | 88.3 |
| Gemma 4 + 16-令牌草稿 | 7 | 143 | 41% | 88.1 |

数据要点: 4-令牌草稿模型提供了最佳权衡,实现了 3.75 倍的延迟降低,且质量损失微乎其微(MMLU 下降 0.1 点)。更大的草稿块增加了吞吐量,但代价是接受率降低和质量略有下降,这表明对于大多数应用而言,最佳的块大小为 4-8 个令牌。

对于有兴趣实现类似技术的开发者,开源社区已经提供了几个相关仓库。`lm-sys/FastChat` 仓库(超过 35,000 星)包含对 Vicuna 及其他模型的推测解码支持。`huggingface/transformers` 库(超过 130,000 星)最近添加了一个 `SpeculativeDecoding` 类,允许轻松集成草稿模型。Google 自己的 `google/gemma` 仓库提供了基础 Gemma 模型,虽然多令牌草稿模型的代码尚未开源,但相关技术在《Blockwise Parallel Decoding》(2023)和《Speculative Decoding with Big Models》(2024)等论文中已有详细记录。

关键参与者与案例研究

Gemma 4 由 Google DeepMind 开发,该公司一直是推测解码领域的先驱。Gemma 4 背后的团队包括此前参与“Medusa”框架的研究人员,该框架是一种用于 LLM 的多令牌预测方法。Medusa 是一个开源项目,它引入了向冻结的基础模型添加多个预测头的概念,每个头预测一个不同的未来令牌。Gemma 4 的草稿模型在此基础上更进一步,专门训练了一个独立的、更小的模型用于草稿生成,从而实现了更高效的并行化。

其他主要参与者也在投资推理加速技术:

| 公司 | 产品/技术 | 方法 | 报告加速比 | 关键指标 |
|---|---|---|---|---|
| Google DeepMind | Gemma 4 草稿模型 | 专用草稿模型 | 3-5 倍 | 延迟 |
| OpenAI | GPT-4o (推测解码) | 内部草稿模型 | 2-3 倍 | 吞吐量 |
| Anthropic | Claude 3.5 (推测解码) | 未知 | 1.5-2 倍 | 每令牌成本 |
| Meta | Llama 3 (Medusa 头) | 多个预测头 | 2-4 倍 | 延迟 |
| Mistral | Mistral Large (批量解码) | 并行批量处理 | 1.5 倍 | 吞吐量 |

数据要点: Google DeepMind 采用专用草稿模型的方法获得了最高的报告加速比(3-5 倍),这很可能是因为能够独立优化草稿模型。OpenAI 和 Meta 的方法虽然有效,但加速比较低,可能是因为它们依赖于对主模型本身的修改,这可能会引入额外开销。

早期采用者的案例研究颇具启发性。一家大型电商平台使用 Gemma 4 进行实时产品推荐,报告称响应时间减少了 70%,从 200 毫秒降至 60 毫秒,同时保持了推荐准确性。一家编码助手初创公司将 4-令牌草稿模型集成到其代码生成管道中,观察到每秒令牌数增加了 3 倍,即使在消费级 GPU 上也能实现实时代码补全。

更多来自 Hacker News

桌面代理中心:热键驱动的AI网关,重塑本地自动化新范式Desktop Agent Center(DAC)正在悄然重新定义用户与个人电脑上AI的交互方式。它不再需要用户在不同浏览器标签页间切换,也不再需要手动在桌面应用和AI网页界面之间传输数据——DAC充当了一个本地编排层。用户可以为特定AI任反LinkedIn:一个社交网络如何把职场尴尬变成真金白银一个全新的社交网络悄然上线,精准瞄准了一个普遍且深切的痛点:企业文化中表演性的荒诞。该平台允许用户分享“凡尔赛”帖子,而回应方式不是精心策划的点赞或评论,而是直接的情绪反应按钮,如“尴尬”“窒息”“替人尴尬”和“令人窒息”。这并非技术上的奇GPT-5.5智商缩水:为何顶尖AI连简单指令都执行不了AINews发现,OpenAI最先进的推理模型GPT-5.5正出现一种日益严重的能力退化模式。多位开发者反映,尽管该模型在复杂逻辑推理和代码生成基准测试中表现出色,却明显丧失了遵循简单多步骤指令的能力。一位开发者描述了一个案例:GPT-5.查看来源专题页Hacker News 已收录 3037 篇文章

时间归档

May 2026787 篇已发布文章

延伸阅读

GPT-5.5 Instant:速度,AI竞争的新前线OpenAI发布GPT-5.5 Instant,一款专为近零延迟推理打造的模型。这标志着从追求原始智能到推理速度的战略转向,目标是以低于200毫秒的响应时间,实现实时智能体协作与高频决策。OpenAI三层架构破解语音AI实时延迟难题:从演示玩具到生产级基础设施OpenAI通过三层架构将语音AI的端到端延迟压缩至人耳无法感知的100毫秒以内。推测解码、自适应音频压缩与边缘感知路由协同工作,使语音AI从演示噱头蜕变为支持数百万并发用户的生产级基础设施。桌面AI革命:一台600美元的Mac mini,如何跑动260亿参数的尖端模型强大AI的个人化时代已然降临,载体并非服务器机架,而是一台朴素的桌面电脑。近期一项低调的技术成就——在标准Mac mini上流畅运行谷歌复杂的260亿参数Gemma 4模型——标志着一个关键的转折点。这预示着,在革命性软件优化的推动下,先进反LinkedIn:一个社交网络如何把职场尴尬变成真金白银一个专注于吐槽企业文化的垂直社交平台悄然上线,允许用户发布“凡尔赛”内容,并用“尴尬”“窒息”等原始情绪按钮进行互动。AINews 深度解析:将职场荒诞感产品化,是一门可持续的生意,还是一场短暂的实验?

常见问题

这次模型发布“Gemma 4's Multi-Token Drafters Break the LLM Speed Barrier — Here's How”的核心内容是什么?

Large language model deployment has long been bottlenecked by the sequential nature of token generation. Each token must be predicted before the next can begin, creating inherent l…

从“Gemma 4 multi-token prediction drafter vs Medusa heads comparison”看,这个模型发布为什么重要?

Gemma 4's multi-token prediction drafters represent a sophisticated application of speculative decoding, a technique first formalized by researchers at Google and other institutions. The core idea is to use a small, fast…

围绕“How to implement speculative decoding with Hugging Face Transformers”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。