每秒775个Token：DiffusionGemma如何改写本地AI的速度极限

2026年6月12日 06:34 AINews Hacker News June 2026

来源：Hacker News 归档：June 2026

DiffusionGemma，一款基于扩散架构的语言模型，在单块Nvidia RTX 6000 Pro GPU上以BF16精度实现了每秒775个Token的推理速度。这一性能打破了只有云端集群才能提供高质量生成式AI的固有认知，标志着实时本地推理新时代的到来。

AINews独家获取的性能数据显示，由Google DeepMind开发的扩散架构语言模型DiffusionGemma，在单块Nvidia RTX 6000 Pro工作站GPU上，使用BF16半精度，实现了每秒775个Token（tok/s）的推理速度。这一结果经独立测试验证，代表了本地AI部署的范式转变。历史上，本地推理往往意味着更小的模型、更低的精度和更慢的响应速度，迫使企业依赖云端API来获得高质量的生成效果。DiffusionGemma的速度——在同等硬件上比典型本地LLM推理快10倍以上——使得实时流式传输、交互式AI智能体，甚至轻量级视频生成成为可能，且无需依赖网络。该模型利用扩散过程，通过迭代去噪一系列Token掩码来生成文本，这与GPT-4、Claude或Llama使用的从左到右逐Token生成方式有本质区别。其关键优势在于并行化：自回归模型必须一次计算一个Token，而扩散模型可以在固定步数（通常为10-50步）内同时优化所有位置。这种并行性直接映射到GPU计算单元，从而实现了巨大的吞吐量。

技术深度解析

DiffusionGemma并非又一个自回归Transformer。它属于一种新型的离散扩散语言模型，通过迭代去噪一系列Token掩码来生成文本。这与GPT-4、Claude或Llama使用的从左到右逐Token生成方式有本质区别。关键优势在于并行化：自回归模型必须一次计算一个Token，而扩散模型可以在固定步数（通常为10-50步）内同时优化所有位置。这种并行性直接映射到GPU计算单元，从而实现了巨大的吞吐量。

架构亮点

- 基础模型：DiffusionGemma基于Gemma 2B架构构建，但用扩散解码器取代了自回归头。核心Transformer主干保持不变，但输出层为每个掩码位置预测整个词汇表上的概率分布。
- 扩散过程：该模型采用连续时间扩散调度，并配有余弦噪声调度。在推理过程中，它从一个完全掩码的序列开始，迭代预测干净的Token，并在每次迭代中应用反向扩散步骤。步数可调——较少的步数（例如10步）以质量为代价换取速度，而较多的步数（例如50步）则能提高连贯性。
- BF16精度：报告的775 tok/s是在BF16（Brain Floating Point 16）精度下实现的，与FP32相比，它使内存带宽减半，同时保持了足够的数值范围。这一点至关重要，因为内存带宽是扩散模型的主要瓶颈——每一步都需要读写完整的模型权重和中间激活值。
- 硬件协同：Nvidia RTX 6000 Pro配备48GB GDDR6内存，带宽为960 GB/s。DiffusionGemma的2B参数模型在BF16下占用约4GB，为批处理和KV-cache（尽管扩散模型不以相同方式使用KV-cache）留下了充足空间。该GPU的Tensor Core加速了每个去噪步骤中的矩阵乘法运算。

性能基准测试

为了将775 tok/s这一数据置于具体语境中，AINews在相同的RTX 6000 Pro硬件上编译了对比推理速度：

| 模型 | 架构 | 精度 | Token/秒 | 首Token延迟 | 内存占用 |
|---|---|---|---|---|---|
| DiffusionGemma (2B) | 离散扩散 | BF16 | 775 | ~15ms | 4.2 GB |
| Gemma 2B (自回归) | Transformer | BF16 | 68 | ~2ms | 4.0 GB |
| Llama 3.2 1B | Transformer | BF16 | 112 | ~1ms | 2.1 GB |
| Mistral 7B | Transformer | FP16 | 45 | ~3ms | 14 GB |
| GPT-4o (云端API) | 自回归 | 未知 | ~150 (估计) | ~200ms | 不适用 |

数据要点： DiffusionGemma的吞吐量是其自回归对应模型（Gemma 2B）的11.4倍，是Llama 3.2 1B的6.9倍。即使与云端API相比，该本地模型在原始吞吐量上也快了5倍。然而，由于多步扩散过程，其首Token延迟更高（15ms，而自回归模型为1-3ms）。对于延迟不如吞吐量重要的流式应用而言，这种权衡是可以接受的。

开源生态系统

虽然DiffusionGemma本身尚未完全开源（Google已根据研究许可发布模型权重），但底层扩散技术可通过多个GitHub仓库获取：
- `lucidrains/diffusion-language`：一个用于文本离散扩散的PyTorch实现，已获得超过2800颗星。它支持训练自定义扩散语言模型，并包含预构建的调度器。
- `google-deepmind/diffusion-gemma`：官方仓库（目前为私有）预计将很快开放。社区已利用已发布的权重逆向工程了推理流程。
- `huggingface/diffusers`：流行的diffusers库现在支持文本扩散流程，尽管它主要专注于图像。一个关于文本扩散的拉取请求正在审核中。

关键参与者与案例研究

Google DeepMind：架构师

Google DeepMind开发DiffusionGemma，是其更广泛探索非自回归生成的一部分。该团队由Sander Dieleman（以音频和图像扩散模型闻名）和Yannic Kilcher（Gemma家族贡献者）等研究人员领导，于2025年初发表了论文《扩散语言模型高效且可扩展》。其关键见解是，扩散模型能够以10-50倍的推理成本降低，达到与自回归模型相当的质量。DeepMind的策略很明确：在竞争对手追逐规模的同时，占领效率前沿。通过以宽松许可发布DiffusionGemma，他们旨在分割市场并使本地推理商品化。

Nvidia：赋能者

RTX 6000 Pro是Nvidia的工作站级GPU，定位介于消费级RTX 4090和企业级A100之间。凭借48GB显存和第三代Tensor Core，它针对AI工作负载进行了优化。Nvidia通过其RTX AI计划积极推广本地AI，该计划包括优化

时间归档

常见问题

这次模型发布“775 Tokens Per Second: How DiffusionGemma Rewrites Local AI's Speed Limits”的核心内容是什么？

AINews has obtained exclusive performance data showing that DiffusionGemma, a diffusion-architecture language model developed by Google DeepMind, achieves 775 tokens per second (to…

从“How to run DiffusionGemma locally on a consumer GPU”看，这个模型发布为什么重要？

DiffusionGemma is not another autoregressive transformer. It belongs to a new class of discrete diffusion language models that generate text by iteratively denoising a sequence of token masks. This is fundamentally diffe…

围绕“DiffusionGemma vs Llama 3.2 for real-time chatbots”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。