技术深度解析
DiffusionGemma并非又一个自回归Transformer。它属于一种新型的离散扩散语言模型,通过迭代去噪一系列Token掩码来生成文本。这与GPT-4、Claude或Llama使用的从左到右逐Token生成方式有本质区别。关键优势在于并行化:自回归模型必须一次计算一个Token,而扩散模型可以在固定步数(通常为10-50步)内同时优化所有位置。这种并行性直接映射到GPU计算单元,从而实现了巨大的吞吐量。
架构亮点
- 基础模型:DiffusionGemma基于Gemma 2B架构构建,但用扩散解码器取代了自回归头。核心Transformer主干保持不变,但输出层为每个掩码位置预测整个词汇表上的概率分布。
- 扩散过程:该模型采用连续时间扩散调度,并配有余弦噪声调度。在推理过程中,它从一个完全掩码的序列开始,迭代预测干净的Token,并在每次迭代中应用反向扩散步骤。步数可调——较少的步数(例如10步)以质量为代价换取速度,而较多的步数(例如50步)则能提高连贯性。
- BF16精度:报告的775 tok/s是在BF16(Brain Floating Point 16)精度下实现的,与FP32相比,它使内存带宽减半,同时保持了足够的数值范围。这一点至关重要,因为内存带宽是扩散模型的主要瓶颈——每一步都需要读写完整的模型权重和中间激活值。
- 硬件协同:Nvidia RTX 6000 Pro配备48GB GDDR6内存,带宽为960 GB/s。DiffusionGemma的2B参数模型在BF16下占用约4GB,为批处理和KV-cache(尽管扩散模型不以相同方式使用KV-cache)留下了充足空间。该GPU的Tensor Core加速了每个去噪步骤中的矩阵乘法运算。
性能基准测试
为了将775 tok/s这一数据置于具体语境中,AINews在相同的RTX 6000 Pro硬件上编译了对比推理速度:
| 模型 | 架构 | 精度 | Token/秒 | 首Token延迟 | 内存占用 |
|---|---|---|---|---|---|
| DiffusionGemma (2B) | 离散扩散 | BF16 | 775 | ~15ms | 4.2 GB |
| Gemma 2B (自回归) | Transformer | BF16 | 68 | ~2ms | 4.0 GB |
| Llama 3.2 1B | Transformer | BF16 | 112 | ~1ms | 2.1 GB |
| Mistral 7B | Transformer | FP16 | 45 | ~3ms | 14 GB |
| GPT-4o (云端API) | 自回归 | 未知 | ~150 (估计) | ~200ms | 不适用 |
数据要点: DiffusionGemma的吞吐量是其自回归对应模型(Gemma 2B)的11.4倍,是Llama 3.2 1B的6.9倍。即使与云端API相比,该本地模型在原始吞吐量上也快了5倍。然而,由于多步扩散过程,其首Token延迟更高(15ms,而自回归模型为1-3ms)。对于延迟不如吞吐量重要的流式应用而言,这种权衡是可以接受的。
开源生态系统
虽然DiffusionGemma本身尚未完全开源(Google已根据研究许可发布模型权重),但底层扩散技术可通过多个GitHub仓库获取:
- `lucidrains/diffusion-language`:一个用于文本离散扩散的PyTorch实现,已获得超过2800颗星。它支持训练自定义扩散语言模型,并包含预构建的调度器。
- `google-deepmind/diffusion-gemma`:官方仓库(目前为私有)预计将很快开放。社区已利用已发布的权重逆向工程了推理流程。
- `huggingface/diffusers`:流行的diffusers库现在支持文本扩散流程,尽管它主要专注于图像。一个关于文本扩散的拉取请求正在审核中。
关键参与者与案例研究
Google DeepMind:架构师
Google DeepMind开发DiffusionGemma,是其更广泛探索非自回归生成的一部分。该团队由Sander Dieleman(以音频和图像扩散模型闻名)和Yannic Kilcher(Gemma家族贡献者)等研究人员领导,于2025年初发表了论文《扩散语言模型高效且可扩展》。其关键见解是,扩散模型能够以10-50倍的推理成本降低,达到与自回归模型相当的质量。DeepMind的策略很明确:在竞争对手追逐规模的同时,占领效率前沿。通过以宽松许可发布DiffusionGemma,他们旨在分割市场并使本地推理商品化。
Nvidia:赋能者
RTX 6000 Pro是Nvidia的工作站级GPU,定位介于消费级RTX 4090和企业级A100之间。凭借48GB显存和第三代Tensor Core,它针对AI工作负载进行了优化。Nvidia通过其RTX AI计划积极推广本地AI,该计划包括优化