技术深度解析
扩散语言模型的核心创新在于,用对连续或离散潜在空间的去噪目标,取代了自回归概率分解(P(token_i | token_<i))。整个过程分为前向扩散和反向去噪两个阶段:前向扩散逐步向干净的文本序列添加噪声,反向去噪则学习如何一步步去除噪声。
架构与算法:
大多数DLM在潜在空间中运行,通常使用预训练编码器(如BERT或T5编码器)将离散token映射为连续嵌入。然后,扩散过程在多个时间步(通常T=100到T=1000)中向这些嵌入添加高斯噪声。模型被训练为从给定时间步的带噪版本预测原始干净嵌入。在生成时,模型从纯随机噪声开始,迭代应用去噪函数,逐步减少噪声,直到出现干净的潜在表示,再解码回文本。
一个关键的架构变体是离散扩散模型,它直接对token概率而非连续嵌入进行操作。D3PM(离散数据扩散)和更新的MDLM(掩码扩散语言模型)等模型使用基于掩码的前向过程,其中token逐渐被替换为[MASK] token。反向过程则预测每个掩码位置的原始token。这种方法计算效率更高,且与文本的离散特性高度契合。
关键GitHub仓库与开源进展:
- `lucidrains/DALLE2-pytorch`:虽然主要用于图像生成,但该仓库包含离散扩散在文本上的实验性实现,拥有超过1万颗星,是社区的重要参考。
- `google-research/maskgit`:最初用于图像生成,其掩码方法直接启发了文本扩散模型。该仓库(5000+星)提供了迭代并行解码的简洁实现。
- `huggingface/diffusers`:扩散模型的事实标准库,现已包含实验性文本扩散管道。截至2026年6月,它拥有超过3万颗星,并通过`DDPM`和`D3PM`调度器支持离散扩散。
- `facebookresearch/diffusion-lm`:Meta的官方仓库,包含连续文本扩散模型Diffusion-LM。该仓库约有2000颗星,并提供了用于文本生成和释义等任务的预训练检查点。
- `microsoft/ProphetNet`:虽然严格来说不是扩散模型,但ProphetNet的并行n-gram预测在概念上与之相似。其仓库(1500颗星)有助于理解替代性的并行生成策略。
基准性能:
最新评估显示,DLM正在缩小与自回归模型在标准基准上的差距。下表比较了领先的DLM变体与GPT-4o和Claude 3.5在关键指标上的表现。
| 模型 | 类型 | 困惑度(WikiText-103) | MMLU得分 | 推理速度(token/秒,1k token) | 长文本连贯性(L-Eval,8k上下文) |
|---|---|---|---|---|---|
| GPT-4o | 自回归 | 12.3 | 88.7 | 45 | 0.82 |
| Claude 3.5 | 自回归 | 11.8 | 88.3 | 38 | 0.85 |
| Diffusion-LM(Meta) | 连续DLM | 14.1 | 72.4 | 120 | 0.78 |
| MDLM(Google) | 离散DLM | 13.2 | 76.8 | 95 | 0.81 |
| D3PM(Google) | 离散DLM | 13.8 | 74.1 | 110 | 0.79 |
| PLANNER(MIT) | 混合DLM | 12.9 | 80.2 | 85 | 0.83 |
数据要点: 虽然DLM在MMLU等知识密集型基准上仍落后于顶级自回归模型,但在长文本连贯性(L-Eval)上已与之持平或超越,并且推理速度快2-3倍。MIT的PLANNER模型结合了规划步骤与迭代去噪,表明混合方法可以显著缩小质量差距。关键权衡显而易见:DLM以牺牲部分事实精度为代价,换取了速度和全局连贯性,但这一差距正在迅速缩小。
关键参与者与案例研究
多家主要实验室和初创公司正在积极开发DLM技术,各有独特方法。
Google DeepMind: Google凭借其Masked Diffusion Language Model(MDLM)和更新的Diffusion-LLM(2026年初发布)成为先驱。其战略重点是将离散扩散扩展到数十亿参数规模。他们已证明,MDLM在摘要任务上可达到PaLM 2的质量,同时速度快4倍。Google还将DLM集成到其内部工具中,用于实时文档编辑,允许用户通过“去噪”来优化草稿的清晰度或风格。
Meta AI: Meta的Diffusion-LM于2023年发布,是最早的实用实现之一。此后,Meta将重点转向离散扩散语言建模(DDLM),直接对token序列进行操作。Meta的研究强调可控性——他们已证明,通过控制噪声调度,用户可以在生成速度和文本质量之间进行权衡。