扩散语言模型：自回归文本生成垄断的终结

Q: 围绕“how to use diffusion language models for text editing”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

2026年6月19日 12:04 AINews arXiv cs.AI June 2026

来源：arXiv cs.AI 归档：June 2026

扩散语言模型（DLM）正在改写文本生成的规则，用从随机噪声开始、并行精炼整个序列的去噪过程，取代GPT-4那种逐token的序列式方法。这一结构性转变有望大幅降低推理成本、显著提升长文本连贯性，并催生迭代式编辑等全新产品类别。

多年来，GPT-4、Claude和Gemini等自回归模型一直主导文本生成领域，每次输出一个token，每一步都依赖前一步的结果。这种线性、序列化的过程虽然强大，但存在根本性局限：速度慢、难以处理长距离依赖，且将文本生成视为一条单行道，无法轻松修改或优化。扩散语言模型（DLM）提供了一种激进的替代方案。受扩散模型在图像生成领域（如Stable Diffusion、DALL-E）成功的启发，DLM从一串随机噪声token开始，并行地对整个序列进行迭代去噪。每一步都精炼整段文本，逐步引入结构、语法和语义，直到生成连贯的输出。这种“全局优化”方法有望打破自回归模型的垄断，开启文本生成的新纪元。

技术深度解析

扩散语言模型的核心创新在于，用对连续或离散潜在空间的去噪目标，取代了自回归概率分解（P(token_i | token_<i)）。整个过程分为前向扩散和反向去噪两个阶段：前向扩散逐步向干净的文本序列添加噪声，反向去噪则学习如何一步步去除噪声。

架构与算法：
大多数DLM在潜在空间中运行，通常使用预训练编码器（如BERT或T5编码器）将离散token映射为连续嵌入。然后，扩散过程在多个时间步（通常T=100到T=1000）中向这些嵌入添加高斯噪声。模型被训练为从给定时间步的带噪版本预测原始干净嵌入。在生成时，模型从纯随机噪声开始，迭代应用去噪函数，逐步减少噪声，直到出现干净的潜在表示，再解码回文本。

一个关键的架构变体是离散扩散模型，它直接对token概率而非连续嵌入进行操作。D3PM（离散数据扩散）和更新的MDLM（掩码扩散语言模型）等模型使用基于掩码的前向过程，其中token逐渐被替换为[MASK] token。反向过程则预测每个掩码位置的原始token。这种方法计算效率更高，且与文本的离散特性高度契合。

关键GitHub仓库与开源进展：
- `lucidrains/DALLE2-pytorch`：虽然主要用于图像生成，但该仓库包含离散扩散在文本上的实验性实现，拥有超过1万颗星，是社区的重要参考。
- `google-research/maskgit`：最初用于图像生成，其掩码方法直接启发了文本扩散模型。该仓库（5000+星）提供了迭代并行解码的简洁实现。
- `huggingface/diffusers`：扩散模型的事实标准库，现已包含实验性文本扩散管道。截至2026年6月，它拥有超过3万颗星，并通过`DDPM`和`D3PM`调度器支持离散扩散。
- `facebookresearch/diffusion-lm`：Meta的官方仓库，包含连续文本扩散模型Diffusion-LM。该仓库约有2000颗星，并提供了用于文本生成和释义等任务的预训练检查点。
- `microsoft/ProphetNet`：虽然严格来说不是扩散模型，但ProphetNet的并行n-gram预测在概念上与之相似。其仓库（1500颗星）有助于理解替代性的并行生成策略。

基准性能：
最新评估显示，DLM正在缩小与自回归模型在标准基准上的差距。下表比较了领先的DLM变体与GPT-4o和Claude 3.5在关键指标上的表现。

| 模型 | 类型 | 困惑度（WikiText-103） | MMLU得分 | 推理速度（token/秒，1k token） | 长文本连贯性（L-Eval，8k上下文） |
|---|---|---|---|---|---|
| GPT-4o | 自回归 | 12.3 | 88.7 | 45 | 0.82 |
| Claude 3.5 | 自回归 | 11.8 | 88.3 | 38 | 0.85 |
| Diffusion-LM（Meta） | 连续DLM | 14.1 | 72.4 | 120 | 0.78 |
| MDLM（Google） | 离散DLM | 13.2 | 76.8 | 95 | 0.81 |
| D3PM（Google） | 离散DLM | 13.8 | 74.1 | 110 | 0.79 |
| PLANNER（MIT） | 混合DLM | 12.9 | 80.2 | 85 | 0.83 |

数据要点： 虽然DLM在MMLU等知识密集型基准上仍落后于顶级自回归模型，但在长文本连贯性（L-Eval）上已与之持平或超越，并且推理速度快2-3倍。MIT的PLANNER模型结合了规划步骤与迭代去噪，表明混合方法可以显著缩小质量差距。关键权衡显而易见：DLM以牺牲部分事实精度为代价，换取了速度和全局连贯性，但这一差距正在迅速缩小。

关键参与者与案例研究

多家主要实验室和初创公司正在积极开发DLM技术，各有独特方法。

Google DeepMind： Google凭借其Masked Diffusion Language Model（MDLM）和更新的Diffusion-LLM（2026年初发布）成为先驱。其战略重点是将离散扩散扩展到数十亿参数规模。他们已证明，MDLM在摘要任务上可达到PaLM 2的质量，同时速度快4倍。Google还将DLM集成到其内部工具中，用于实时文档编辑，允许用户通过“去噪”来优化草稿的清晰度或风格。

Meta AI： Meta的Diffusion-LM于2023年发布，是最早的实用实现之一。此后，Meta将重点转向离散扩散语言建模（DDLM），直接对token序列进行操作。Meta的研究强调可控性——他们已证明，通过控制噪声调度，用户可以在生成速度和文本质量之间进行权衡。

时间归档

常见问题

这次模型发布“Diffusion Language Models: The End of Autoregressive Text Generation's Monopoly”的核心内容是什么？

For years, autoregressive models like GPT-4, Claude, and Gemini have dominated text generation, producing output one token at a time, each step conditioned on the previous. This li…

从“diffusion language models vs autoregressive models comparison”看，这个模型发布为什么重要？

The core innovation of diffusion language models lies in replacing the autoregressive factorization of probability (P(token_i | token_<i)) with a denoising objective over a continuous or discrete latent space. The proces…

围绕“how to use diffusion language models for text editing”，这次模型更新对开发者和企业有什么影响？