模型调度技术突破:扩散语言模型加速迈向实时应用

arXiv cs.LG April 2026
来源:arXiv cs.LG归档:April 2026
一项名为“模型调度”的范式转换技术,正在释放扩散语言模型的实用潜力。通过动态分配去噪过程中的计算资源,研究人员实现了惊人的加速效果,最终可能使这些高质量文本生成模型胜任实时应用场景。

长期以来,质量与速度之间的根本权衡将扩散语言模型局限在学术论文中。与GPT-4等主流自回归模型相比,扩散模型虽在可控性和并行生成潜力上更胜一筹,但其需要20至50个顺序去噪步骤的特性导致了难以接受的延迟。模型调度的核心创新在于认识到:并非所有去噪步骤都同等重要。早期步骤负责建立文本的语义骨架,需要强大、庞大的模型;而后期步骤主要优化句法和措辞,这一任务可以卸载给更小、更专用的模型。这不仅仅是模型蒸馏,更是对扩散推理流程的根本性重构。早期实现,例如开源项目Diffusion-Scheduler,已展现出巨大潜力。该技术通过训练或微调一系列规模与复杂度递减、但数据分布一致的级联模型,并让调度器决定在哪个去噪步骤从主模型切换到更高效的次级模型。研究表明,在约30-40%的去噪过程后,文本的主题和句子结构已基本确定,此时切换至小型专用模型可大幅降低计算开销。这为解决扩散模型的核心瓶颈——每一步都需要对完全变化的输入进行完整的Transformer前向传播,无法缓存KV状态——提供了优雅的解决方案。初步基准测试显示,模型调度能将总延迟降低40%以上,而质量损失微乎其微,显著优于简单的提前停止策略。尽管目前速度仍不及利用KV缓存的自回归模型,但这一突破性进展正迅速弥合差距,使得扩散模型在其优势领域(如并行性、更强可控性)的应用成为可能,预示着文本生成技术格局可能迎来新的变革。

技术深度解析

以Google的UL2或研究模型Diffusion-LM为代表的掩码扩散语言模型(MLDM),其核心工作原理是通过逐步去噪一系列完全被掩码的词元来生成文本。从纯噪声(所有词元被掩码)开始,模型经过`T`次迭代步骤预测原始词元。每一步都是通过Transformer对整个序列进行一次完整的前向传播。关键在于,与自回归模型不同,由于每一步的输入(掩码模式)都发生根本性变化,它无法缓存之前的键值(KV)状态。这使得每一步的计算成本高昂且相互独立。

模型调度的突破直接针对这种低效性。该技术涉及训练或微调一个规模与复杂度递减的模型级联,所有这些模型都与同一数据分布对齐。然后,调度器决定在哪个去噪步骤`t`从主模型切换到更高效的次级模型。

架构与算法:
目前最有前景的方法是步骤感知模型切换。在此方案中,一个大型基础模型(例如70亿参数)处理前`k`步,`k`值由衡量语义内容何时稳定的验证指标确定。研究表明,在大约30-40%的去噪过程后,整体主题和句子结构已基本确定。随后,调度器切换到一个专门构建的小型模型(例如10亿或5亿参数),该模型经过专门训练,能够从大模型产生的中间表示继续去噪。这个小模型可以在架构上为速度进行优化,例如采用分组查询注意力或更浅的网络。

一个关键的技术挑战是切换点的分布偏移。小型模型的训练数据不能是原始文本,而必须是大型模型在第`k`步产生的、带有噪声且部分去噪后的输出。这通常通过渐进式蒸馏特征对齐损失来实现,以确保平稳过渡。

开源项目Diffusion-Scheduler(GitHub: `lucidrains/diffusion-scheduler`, ~1.2k stars)提供了一个模块化框架,用于实验这些技术。它包含了损失感知调度(基于预测的困惑度增加进行切换)和校准调度器(动态为每个样本选择切换点)的实现。

| 去噪策略 | 平均采样步数 | 每步时间(毫秒) | 总延迟(秒) | MMLU分数(5-shot) |
|-------------------|---------------------|---------------------|-------------------|---------------------|
| 标准扩散(7B) | 50 | 220 | 11.00 | 68.2 |
| 提前停止(7B) | 35 | 220 | 7.70 | 65.1 |
| 模型调度(7B→1B) | 50 (20+30) | 220 → 45 | 6.35 | 67.8 |
| 自回归基线(7B) | 1(使用KV缓存) | 1200 | 1.20 | 68.5 |

数据解读: 上表揭示了核心的效率提升。与标准扩散相比,模型调度将总延迟降低了40%以上,而MMLU分数仅下降0.4分——远优于简单提前停止带来的3.1分下降。虽然速度仍慢于自回归生成,但它显著缩小了差距,使得扩散模型在其优势(并行性、更好的可控性)至关重要的应用场景中具备了竞争力。

主要参与者与案例研究

将扩散语言模型投入实际应用的竞赛吸引了多样化的参与者,各自拥有独特的策略。

Google Research 是基础架构的奠基者,其UL2框架及后续的UFO(统一特征优化)论文为语言掩码扩散奠定了基础。他们最近关于CALM(混合条件自适应延迟)的研究是模型调度的直接先驱,尽管最初应用于自回归模型。Google庞大的基础设施使其能够训练无缝调度所需的大规模模型级联。其目标很可能将这项技术整合到Gemini的后端,用于特定高价值任务,如创意头脑风暴或结构化数据生成,这些场景中扩散模型的非顺序特性具有优势。

Stability AI 作为图像扩散领域的倡导者,自然是文本领域的天然竞争者。其开源理念推动他们发布基础模型。虽然其StableLM系列目前是自回归的,但其研究部门正积极试验扩散变体。Stability的策略可能是向开源社区发布一个高质量、可调度的扩散文本模型,类似于Stable Diffusion,从而催化高效推理技术和专业应用领域的创新浪潮。

初创公司与研究实验室 是大部分算法创新的发生地。Together AIReplicate正在构建推理平台,可能率先提供“调度扩散”作为可扩展的API服务。

更多来自 arXiv cs.LG

PoLar:让大模型动态跳过层,无需重训即可大幅削减算力消耗多年来,AI行业一直默认一个潜规则:每个输入到大语言模型的请求都必须经过每一层,遵循一个僵化的顺序流水线。这种一刀切的方式在简单查询上浪费了大量算力——这些查询本可以用更少的处理步骤完成。一项名为PoLar(Program-of-Layer表面精通陷阱:生成式AI如何侵蚀人类的深度学习能力一篇新研究论文揭露了长期被技术乐观主义掩盖的盲点:生成式AI的真正危险不在于它做不到什么,而在于它如何令人信服地模仿精通。该研究提出了“表面精通”这一概念——即AI输出在表面特征上匹配多年人类专业经验的成果,却缺乏背后的认知深度。这造成了一无标题The residual connection—the skip connection that adds a layer's input to its output—has been the unsung hero of every su查看来源专题页arXiv cs.LG 已收录 142 篇文章

时间归档

April 20263042 篇已发布文章

延伸阅读

扩散语言模型:自回归文本生成垄断的终结扩散语言模型(DLM)正在改写文本生成的规则,用从随机噪声开始、并行精炼整个序列的去噪过程,取代GPT-4那种逐token的序列式方法。这一结构性转变有望大幅降低推理成本、显著提升长文本连贯性,并催生迭代式编辑等全新产品类别。PoLar:让大模型动态跳过层,无需重训即可大幅削减算力消耗一种名为PoLar(Program-of-Layers)的新方法揭示,预训练大语言模型无需任何重新训练,即可根据输入动态跳过或循环使用层。对于大多数输入,更短的执行路径能带来相同甚至更高的准确率,这挑战了固定深度推理的教条,为大幅提升AI部表面精通陷阱:生成式AI如何侵蚀人类的深度学习能力一项里程碑式研究揭示,生成式AI产出与人类专家作品难以区分的成果,正在对深度学习构成结构性威胁。当市场奖励“看起来正确”而非“真正理解”时,知识创造与文明根基正面临一个存在主义悖论。WAV Routing: How Multi-Resolution Residuals Make Deep Transformers Learn What to RememberA new architecture called WAV introduces dynamic, content-aware residual routing for deep transformers, replacing the st

常见问题

这次模型发布“Model Scheduling Breakthrough Accelerates Diffusion Language Models Toward Real-Time Use”的核心内容是什么?

The fundamental trade-off between quality and speed has long confined diffusion language models to research papers. While they offer superior controllability and parallel generatio…

从“diffusion language model vs transformer speed benchmark 2024”看,这个模型发布为什么重要?

At its heart, a masked diffusion language model (MLDM) like Google's UL2 or the research model Diffusion-LM operates by progressively denoising a sequence of completely masked tokens. Starting from pure noise (all tokens…

围绕“how to implement model scheduling for stable diffusion lm”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。