技术深度解析
以Google的UL2或研究模型Diffusion-LM为代表的掩码扩散语言模型(MLDM),其核心工作原理是通过逐步去噪一系列完全被掩码的词元来生成文本。从纯噪声(所有词元被掩码)开始,模型经过`T`次迭代步骤预测原始词元。每一步都是通过Transformer对整个序列进行一次完整的前向传播。关键在于,与自回归模型不同,由于每一步的输入(掩码模式)都发生根本性变化,它无法缓存之前的键值(KV)状态。这使得每一步的计算成本高昂且相互独立。
模型调度的突破直接针对这种低效性。该技术涉及训练或微调一个规模与复杂度递减的模型级联,所有这些模型都与同一数据分布对齐。然后,调度器决定在哪个去噪步骤`t`从主模型切换到更高效的次级模型。
架构与算法:
目前最有前景的方法是步骤感知模型切换。在此方案中,一个大型基础模型(例如70亿参数)处理前`k`步,`k`值由衡量语义内容何时稳定的验证指标确定。研究表明,在大约30-40%的去噪过程后,整体主题和句子结构已基本确定。随后,调度器切换到一个专门构建的小型模型(例如10亿或5亿参数),该模型经过专门训练,能够从大模型产生的中间表示继续去噪。这个小模型可以在架构上为速度进行优化,例如采用分组查询注意力或更浅的网络。
一个关键的技术挑战是切换点的分布偏移。小型模型的训练数据不能是原始文本,而必须是大型模型在第`k`步产生的、带有噪声且部分去噪后的输出。这通常通过渐进式蒸馏或特征对齐损失来实现,以确保平稳过渡。
开源项目Diffusion-Scheduler(GitHub: `lucidrains/diffusion-scheduler`, ~1.2k stars)提供了一个模块化框架,用于实验这些技术。它包含了损失感知调度(基于预测的困惑度增加进行切换)和校准调度器(动态为每个样本选择切换点)的实现。
| 去噪策略 | 平均采样步数 | 每步时间(毫秒) | 总延迟(秒) | MMLU分数(5-shot) |
|-------------------|---------------------|---------------------|-------------------|---------------------|
| 标准扩散(7B) | 50 | 220 | 11.00 | 68.2 |
| 提前停止(7B) | 35 | 220 | 7.70 | 65.1 |
| 模型调度(7B→1B) | 50 (20+30) | 220 → 45 | 6.35 | 67.8 |
| 自回归基线(7B) | 1(使用KV缓存) | 1200 | 1.20 | 68.5 |
数据解读: 上表揭示了核心的效率提升。与标准扩散相比,模型调度将总延迟降低了40%以上,而MMLU分数仅下降0.4分——远优于简单提前停止带来的3.1分下降。虽然速度仍慢于自回归生成,但它显著缩小了差距,使得扩散模型在其优势(并行性、更好的可控性)至关重要的应用场景中具备了竞争力。
主要参与者与案例研究
将扩散语言模型投入实际应用的竞赛吸引了多样化的参与者,各自拥有独特的策略。
Google Research 是基础架构的奠基者,其UL2框架及后续的UFO(统一特征优化)论文为语言掩码扩散奠定了基础。他们最近关于CALM(混合条件自适应延迟)的研究是模型调度的直接先驱,尽管最初应用于自回归模型。Google庞大的基础设施使其能够训练无缝调度所需的大规模模型级联。其目标很可能将这项技术整合到Gemini的后端,用于特定高价值任务,如创意头脑风暴或结构化数据生成,这些场景中扩散模型的非顺序特性具有优势。
Stability AI 作为图像扩散领域的倡导者,自然是文本领域的天然竞争者。其开源理念推动他们发布基础模型。虽然其StableLM系列目前是自回归的,但其研究部门正积极试验扩散变体。Stability的策略可能是向开源社区发布一个高质量、可调度的扩散文本模型,类似于Stable Diffusion,从而催化高效推理技术和专业应用领域的创新浪潮。
初创公司与研究实验室 是大部分算法创新的发生地。Together AI和Replicate正在构建推理平台,可能率先提供“调度扩散”作为可扩展的API服务。