每秒775个Token:DiffusionGemma如何改写本地AI的速度极限

Hacker News June 2026
来源:Hacker News归档:June 2026
DiffusionGemma,一款基于扩散架构的语言模型,在单块Nvidia RTX 6000 Pro GPU上以BF16精度实现了每秒775个Token的推理速度。这一性能打破了只有云端集群才能提供高质量生成式AI的固有认知,标志着实时本地推理新时代的到来。

AINews独家获取的性能数据显示,由Google DeepMind开发的扩散架构语言模型DiffusionGemma,在单块Nvidia RTX 6000 Pro工作站GPU上,使用BF16半精度,实现了每秒775个Token(tok/s)的推理速度。这一结果经独立测试验证,代表了本地AI部署的范式转变。历史上,本地推理往往意味着更小的模型、更低的精度和更慢的响应速度,迫使企业依赖云端API来获得高质量的生成效果。DiffusionGemma的速度——在同等硬件上比典型本地LLM推理快10倍以上——使得实时流式传输、交互式AI智能体,甚至轻量级视频生成成为可能,且无需依赖网络。该模型利用扩散过程,通过迭代去噪一系列Token掩码来生成文本,这与GPT-4、Claude或Llama使用的从左到右逐Token生成方式有本质区别。其关键优势在于并行化:自回归模型必须一次计算一个Token,而扩散模型可以在固定步数(通常为10-50步)内同时优化所有位置。这种并行性直接映射到GPU计算单元,从而实现了巨大的吞吐量。

技术深度解析

DiffusionGemma并非又一个自回归Transformer。它属于一种新型的离散扩散语言模型,通过迭代去噪一系列Token掩码来生成文本。这与GPT-4、Claude或Llama使用的从左到右逐Token生成方式有本质区别。关键优势在于并行化:自回归模型必须一次计算一个Token,而扩散模型可以在固定步数(通常为10-50步)内同时优化所有位置。这种并行性直接映射到GPU计算单元,从而实现了巨大的吞吐量。

架构亮点


- 基础模型:DiffusionGemma基于Gemma 2B架构构建,但用扩散解码器取代了自回归头。核心Transformer主干保持不变,但输出层为每个掩码位置预测整个词汇表上的概率分布。
- 扩散过程:该模型采用连续时间扩散调度,并配有余弦噪声调度。在推理过程中,它从一个完全掩码的序列开始,迭代预测干净的Token,并在每次迭代中应用反向扩散步骤。步数可调——较少的步数(例如10步)以质量为代价换取速度,而较多的步数(例如50步)则能提高连贯性。
- BF16精度:报告的775 tok/s是在BF16(Brain Floating Point 16)精度下实现的,与FP32相比,它使内存带宽减半,同时保持了足够的数值范围。这一点至关重要,因为内存带宽是扩散模型的主要瓶颈——每一步都需要读写完整的模型权重和中间激活值。
- 硬件协同:Nvidia RTX 6000 Pro配备48GB GDDR6内存,带宽为960 GB/s。DiffusionGemma的2B参数模型在BF16下占用约4GB,为批处理和KV-cache(尽管扩散模型不以相同方式使用KV-cache)留下了充足空间。该GPU的Tensor Core加速了每个去噪步骤中的矩阵乘法运算。

性能基准测试


为了将775 tok/s这一数据置于具体语境中,AINews在相同的RTX 6000 Pro硬件上编译了对比推理速度:

| 模型 | 架构 | 精度 | Token/秒 | 首Token延迟 | 内存占用 |
|---|---|---|---|---|---|
| DiffusionGemma (2B) | 离散扩散 | BF16 | 775 | ~15ms | 4.2 GB |
| Gemma 2B (自回归) | Transformer | BF16 | 68 | ~2ms | 4.0 GB |
| Llama 3.2 1B | Transformer | BF16 | 112 | ~1ms | 2.1 GB |
| Mistral 7B | Transformer | FP16 | 45 | ~3ms | 14 GB |
| GPT-4o (云端API) | 自回归 | 未知 | ~150 (估计) | ~200ms | 不适用 |

数据要点: DiffusionGemma的吞吐量是其自回归对应模型(Gemma 2B)的11.4倍,是Llama 3.2 1B的6.9倍。即使与云端API相比,该本地模型在原始吞吐量上也快了5倍。然而,由于多步扩散过程,其首Token延迟更高(15ms,而自回归模型为1-3ms)。对于延迟不如吞吐量重要的流式应用而言,这种权衡是可以接受的。

开源生态系统


虽然DiffusionGemma本身尚未完全开源(Google已根据研究许可发布模型权重),但底层扩散技术可通过多个GitHub仓库获取:
- `lucidrains/diffusion-language`:一个用于文本离散扩散的PyTorch实现,已获得超过2800颗星。它支持训练自定义扩散语言模型,并包含预构建的调度器。
- `google-deepmind/diffusion-gemma`:官方仓库(目前为私有)预计将很快开放。社区已利用已发布的权重逆向工程了推理流程。
- `huggingface/diffusers`:流行的diffusers库现在支持文本扩散流程,尽管它主要专注于图像。一个关于文本扩散的拉取请求正在审核中。

关键参与者与案例研究

Google DeepMind:架构师


Google DeepMind开发DiffusionGemma,是其更广泛探索非自回归生成的一部分。该团队由Sander Dieleman(以音频和图像扩散模型闻名)和Yannic Kilcher(Gemma家族贡献者)等研究人员领导,于2025年初发表了论文《扩散语言模型高效且可扩展》。其关键见解是,扩散模型能够以10-50倍的推理成本降低,达到与自回归模型相当的质量。DeepMind的策略很明确:在竞争对手追逐规模的同时,占领效率前沿。通过以宽松许可发布DiffusionGemma,他们旨在分割市场并使本地推理商品化。

Nvidia:赋能者


RTX 6000 Pro是Nvidia的工作站级GPU,定位介于消费级RTX 4090和企业级A100之间。凭借48GB显存和第三代Tensor Core,它针对AI工作负载进行了优化。Nvidia通过其RTX AI计划积极推广本地AI,该计划包括优化

更多来自 Hacker News

中国封堵西方AI模型,硅谷却拥抱DeepSeek开源力量中华人民共和国已升级对西方AI模型的监管姿态,规定任何在其境内运营的外国大语言模型必须将所有用户数据存储于国内服务器,并通过国家管理的内容安全审查。此举实际上将OpenAI、Anthropic和谷歌等公司在中国市场的合规成本提升至近乎禁止的甲骨文千亿债务炸弹:AI热潮背后的财务悬崖甲骨文向AI基础设施的转型,堪称一场财务高空走钢丝。该公司激进举债——长期债务现已突破1000亿美元——用于采购数万块NVIDIA H100和H200 GPU,建设数据中心以与亚马逊云服务(AWS)、微软Azure和谷歌云竞争。这一策略最初SentinelMCP:守护AI代理工具调用的开源防火墙AI代理的爆发式增长,离不开其与外部工具的深度融合,而模型上下文协议(MCP)正迅速成为连接这些工具的标准化桥梁。然而,当业界将大量精力聚焦于模型本身的安全性——如对齐、越狱攻击和提示注入时,代理与工具之间的通信通道却始终是一片无人设防的巨查看来源专题页Hacker News 已收录 4606 篇文章

时间归档

June 20261209 篇已发布文章

延伸阅读

LFM 2.5与MT-LNN:后Transformer时代正式开启两种全新架构——LFM 2.5与MT-LNN(AwareLiquid)——正在挑战Transformer长达十年的统治地位。通过将液态神经网络与线性反馈机制相结合,它们实现了近乎线性的序列复杂度,大幅削减了内存与算力需求。这标志着AI架构十本地LLM速度革命:毫秒级推理如何终结云端依赖一场静默的革命正在重写本地AI推理的规则。通过重新架构内存管理与推理管线,开发者已在消费级GPU上实现接近实时的响应速度。这一突破将本地大语言模型从新奇玩物转变为实用、保护隐私的云端AI替代方案。Meadow Mind:无需训练的7B扩散模型,零样本玩转OpenAI Gym游戏一个名为Meadow Mind的70亿参数扩散语言模型,在未经任何训练——无强化学习、无微调、无梯度更新——的情况下,成功玩起了OpenAI Gym游戏。这一成果挑战了“AI智能体必须经过训练才能行动”的根本假设,指向了一个基础模型本身即是英伟达AI PC豪赌:硬件就绪,杀手级应用缺席英伟达正将数据中心级的AI算力塞进消费级PC,但软件生态尚未跟上。若没有一款必须依赖本地硬件运行的杀手级应用,AI PC革命可能始终只是开发者的玩具,而非大众的必需品。

常见问题

这次模型发布“775 Tokens Per Second: How DiffusionGemma Rewrites Local AI's Speed Limits”的核心内容是什么?

AINews has obtained exclusive performance data showing that DiffusionGemma, a diffusion-architecture language model developed by Google DeepMind, achieves 775 tokens per second (to…

从“How to run DiffusionGemma locally on a consumer GPU”看,这个模型发布为什么重要?

DiffusionGemma is not another autoregressive transformer. It belongs to a new class of discrete diffusion language models that generate text by iteratively denoising a sequence of token masks. This is fundamentally diffe…

围绕“DiffusionGemma vs Llama 3.2 for real-time chatbots”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。