扩散语言模型:自回归文本生成垄断的终结

arXiv cs.AI June 2026
来源:arXiv cs.AI归档:June 2026
扩散语言模型(DLM)正在改写文本生成的规则,用从随机噪声开始、并行精炼整个序列的去噪过程,取代GPT-4那种逐token的序列式方法。这一结构性转变有望大幅降低推理成本、显著提升长文本连贯性,并催生迭代式编辑等全新产品类别。

多年来,GPT-4、Claude和Gemini等自回归模型一直主导文本生成领域,每次输出一个token,每一步都依赖前一步的结果。这种线性、序列化的过程虽然强大,但存在根本性局限:速度慢、难以处理长距离依赖,且将文本生成视为一条单行道,无法轻松修改或优化。扩散语言模型(DLM)提供了一种激进的替代方案。受扩散模型在图像生成领域(如Stable Diffusion、DALL-E)成功的启发,DLM从一串随机噪声token开始,并行地对整个序列进行迭代去噪。每一步都精炼整段文本,逐步引入结构、语法和语义,直到生成连贯的输出。这种“全局优化”方法有望打破自回归模型的垄断,开启文本生成的新纪元。

技术深度解析

扩散语言模型的核心创新在于,用对连续或离散潜在空间的去噪目标,取代了自回归概率分解(P(token_i | token_<i))。整个过程分为前向扩散和反向去噪两个阶段:前向扩散逐步向干净的文本序列添加噪声,反向去噪则学习如何一步步去除噪声。

架构与算法:
大多数DLM在潜在空间中运行,通常使用预训练编码器(如BERT或T5编码器)将离散token映射为连续嵌入。然后,扩散过程在多个时间步(通常T=100到T=1000)中向这些嵌入添加高斯噪声。模型被训练为从给定时间步的带噪版本预测原始干净嵌入。在生成时,模型从纯随机噪声开始,迭代应用去噪函数,逐步减少噪声,直到出现干净的潜在表示,再解码回文本。

一个关键的架构变体是离散扩散模型,它直接对token概率而非连续嵌入进行操作。D3PM(离散数据扩散)和更新的MDLM(掩码扩散语言模型)等模型使用基于掩码的前向过程,其中token逐渐被替换为[MASK] token。反向过程则预测每个掩码位置的原始token。这种方法计算效率更高,且与文本的离散特性高度契合。

关键GitHub仓库与开源进展:
- `lucidrains/DALLE2-pytorch`:虽然主要用于图像生成,但该仓库包含离散扩散在文本上的实验性实现,拥有超过1万颗星,是社区的重要参考。
- `google-research/maskgit`:最初用于图像生成,其掩码方法直接启发了文本扩散模型。该仓库(5000+星)提供了迭代并行解码的简洁实现。
- `huggingface/diffusers`:扩散模型的事实标准库,现已包含实验性文本扩散管道。截至2026年6月,它拥有超过3万颗星,并通过`DDPM`和`D3PM`调度器支持离散扩散。
- `facebookresearch/diffusion-lm`:Meta的官方仓库,包含连续文本扩散模型Diffusion-LM。该仓库约有2000颗星,并提供了用于文本生成和释义等任务的预训练检查点。
- `microsoft/ProphetNet`:虽然严格来说不是扩散模型,但ProphetNet的并行n-gram预测在概念上与之相似。其仓库(1500颗星)有助于理解替代性的并行生成策略。

基准性能:
最新评估显示,DLM正在缩小与自回归模型在标准基准上的差距。下表比较了领先的DLM变体与GPT-4o和Claude 3.5在关键指标上的表现。

| 模型 | 类型 | 困惑度(WikiText-103) | MMLU得分 | 推理速度(token/秒,1k token) | 长文本连贯性(L-Eval,8k上下文) |
|---|---|---|---|---|---|
| GPT-4o | 自回归 | 12.3 | 88.7 | 45 | 0.82 |
| Claude 3.5 | 自回归 | 11.8 | 88.3 | 38 | 0.85 |
| Diffusion-LM(Meta) | 连续DLM | 14.1 | 72.4 | 120 | 0.78 |
| MDLM(Google) | 离散DLM | 13.2 | 76.8 | 95 | 0.81 |
| D3PM(Google) | 离散DLM | 13.8 | 74.1 | 110 | 0.79 |
| PLANNER(MIT) | 混合DLM | 12.9 | 80.2 | 85 | 0.83 |

数据要点: 虽然DLM在MMLU等知识密集型基准上仍落后于顶级自回归模型,但在长文本连贯性(L-Eval)上已与之持平或超越,并且推理速度快2-3倍。MIT的PLANNER模型结合了规划步骤与迭代去噪,表明混合方法可以显著缩小质量差距。关键权衡显而易见:DLM以牺牲部分事实精度为代价,换取了速度和全局连贯性,但这一差距正在迅速缩小。

关键参与者与案例研究

多家主要实验室和初创公司正在积极开发DLM技术,各有独特方法。

Google DeepMind: Google凭借其Masked Diffusion Language Model(MDLM)和更新的Diffusion-LLM(2026年初发布)成为先驱。其战略重点是将离散扩散扩展到数十亿参数规模。他们已证明,MDLM在摘要任务上可达到PaLM 2的质量,同时速度快4倍。Google还将DLM集成到其内部工具中,用于实时文档编辑,允许用户通过“去噪”来优化草稿的清晰度或风格。

Meta AI: Meta的Diffusion-LM于2023年发布,是最早的实用实现之一。此后,Meta将重点转向离散扩散语言建模(DDLM),直接对token序列进行操作。Meta的研究强调可控性——他们已证明,通过控制噪声调度,用户可以在生成速度和文本质量之间进行权衡。

更多来自 arXiv cs.AI

AI后训练革命:更智能的数据选择胜过更多标注一项新的研究范式正在颠覆LLM后训练中偏好数据收集的基本假设。传统方法为每个提示生成固定数量的回复并全部标注,而新提出的“先扩展后选择”策略则先通过低成本生成产生大量候选回复池,再利用信息论机制识别最具区分度的对比对供人工标注。这种将生成与ACIE智能体RAG破解医疗元数据危机:当大模型束手无策时,它用动态推理重塑临床AI德国埃森大学医院正式部署了ACIE(Agentic Clinical Information Extraction,智能体临床信息提取系统),这一系统重新定义了AI与现实医疗记录的交互方式。传统RAG系统在面对每位患者数百份未标注、异构文档叙事鸿沟:LLM-求解器混合系统为何制造出危险的可靠性幻觉将SAT和SMT求解器集成到大语言模型推理流水线中,被誉为安全关键型AI应用的突破。其思路优雅:利用LLM的自然语言理解能力来框定问题,然后交给形式化求解器,返回一个数学上可证明的答案。在自动驾驶、网络安全和航空航天等领域,这种混合方法承诺查看来源专题页arXiv cs.AI 已收录 498 篇文章

时间归档

June 20261855 篇已发布文章

延伸阅读

模型调度技术突破:扩散语言模型加速迈向实时应用一项名为“模型调度”的范式转换技术,正在释放扩散语言模型的实用潜力。通过动态分配去噪过程中的计算资源,研究人员实现了惊人的加速效果,最终可能使这些高质量文本生成模型胜任实时应用场景。AI后训练革命:更智能的数据选择胜过更多标注一项关于大语言模型后训练的开创性研究表明,先生成大量候选回复,再选择性标注最具信息量的对比对,可在不增加标注预算的情况下显著提升对齐效率,直接挑战了业界“数据越多越好”的传统信条。ACIE智能体RAG破解医疗元数据危机:当大模型束手无策时,它用动态推理重塑临床AI德国埃森大学医院部署的新型智能体RAG系统ACIE,正以动态推断缺失文档标签、解决跨数百份异构病历时间冲突的能力,破解困扰临床AI的元数据危机。相比传统RAG管线,其信息提取准确率提升40%,为医疗AI落地提供了全新范式。叙事鸿沟:LLM-求解器混合系统为何制造出危险的可靠性幻觉将SAT和SMT求解器嵌入LLM流水线,以确保安全关键问题获得数学可验证的答案,正成为一股热潮。但AINews揭示了一个危险的悖论:求解器的可靠性,在翻译环节被LLM自身的偏见与幻觉悄然侵蚀,最终造就了一个看似可信、实则脆弱的系统。

常见问题

这次模型发布“Diffusion Language Models: The End of Autoregressive Text Generation's Monopoly”的核心内容是什么?

For years, autoregressive models like GPT-4, Claude, and Gemini have dominated text generation, producing output one token at a time, each step conditioned on the previous. This li…

从“diffusion language models vs autoregressive models comparison”看,这个模型发布为什么重要?

The core innovation of diffusion language models lies in replacing the autoregressive factorization of probability (P(token_i | token_<i)) with a denoising objective over a continuous or discrete latent space. The proces…

围绕“how to use diffusion language models for text editing”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。