技术深度解析
DiT的核心,是从序列建模的视角重新构想扩散去噪过程。在Stable Diffusion等传统模型中,U-Net直接在含噪的潜在图像上操作,使用卷积层逐步细化。而DiT则首先将含噪输入编码成一个序列。这是通过一个分块化层实现的。对于一个256x256的图像,若块大小为2,模型会创建一个128x128 = 16,384个标记的序列。每个标记都是一个2x2像素块的扁平化表示。随后,这个序列由标准的Transformer编码器进行处理。
DiT模块通过两个关键的条件调节机制进行增强,以指导生成过程:
1. 自适应层归一化(adaLN):DiT不使用标准的LayerNorm,而是采用一种条件化版本,其缩放和移位参数由一个基于扩散时间步`t`的小型网络动态预测。这相当于告诉Transformer当前输入“噪声程度如何”。
2. 条件类别嵌入:对于基于类别的条件生成,类别标签会被嵌入并注入模型,通常通过交叉注意力或额外的调制层实现,从而引导模型生成特定类别的图像。
经过一系列这种改进的Transformer块处理后,序列通过一个最终的线性层解码回噪声预测(或图像预测,取决于具体公式),该线性层负责重建图像块。
DiT论文中最引人注目的数据关乎其可扩展性。团队训练了参数规模从6亿到60亿不等的模型。
| 模型变体 | 参数(G) | 前向传播GFLOPs | FID-50K(ImageNet 256x256) |
|----------------|-----------|----------------|----------------------------|
| DiT-XL/2 | ~3.0 | ~119 | 9.62 |
| DiT-XL/2 (cfg)| ~3.0 | ~119 | 2.27 |
| DiT-L/2 | ~1.2 | ~76 | 12.24 |
| U-Net (ADM) | ~0.7 | ~281 | 10.94 |
*注:“cfg”表示使用了无分类器指导,这是一种提升生成质量的技术。GFLOPs以256x256图像测量。*
数据要点:上表揭示了两点关键洞察。首先,最大的DiT模型(DiT-XL/2)在启用指导后,取得了2.27的顶尖FID分数,显著优于基于U-Net的同类ADM模型。其次,也是更重要的一点,在参数量相近的情况下,DiT基于Transformer的前向传播计算开销(GFLOPs)比卷积U-Net更高效,这凸显了其在规模化时的潜在效率优势。
官方的`facebookresearch/dit` GitHub仓库提供了一个文档齐全的代码库,用于训练和推理。关键文件包括包含核心DiT块定义的`models.py`,以及包含基本训练循环的`train.py`。社区已在此基础上进行拓展;例如,`Projected_DiT`仓库探索了通过CLIP文本编码器集成文本条件,将DiT与Stable Diffusion等文生图模型连接起来。
关键参与者与案例研究
DiT的发展,是一场旨在定义生成式AI基础架构的更广泛战略竞争的一部分。由William Peebles(DiT论文合著者)等研究人员领导的Meta FAIR团队,明确押注于Transformer的统一能力。这与Meta更广泛地推动如Segment Anything Model(SAM)及其Llama语言模型等架构的战略一致,即青睐可扩展的通用设计。
OpenAI的DALL-E 3及其视频生成模型Sora的底层技术,也被怀疑利用了基于Transformer的扩散或类扩散过程。尽管未开源,但其输出的质量和连贯性表明,该公司在用于视觉数据的、可扩展的基于注意力的架构上投入巨大。以U-Net为基础的Stable Diffusion背后的公司Stability AI,如今也在积极探索Transformer集成。其Stable Diffusion 3的中阶模型明确采用了“多模态扩散Transformer(MMDiT)”,这直接承认了DiT的影响力。
| 实体 | 核心架构 | 关键产品/模型 | 对DiT/Transformers的战略定位 |
|------|----------|---------------|-----------------------------|
| Meta (FAIR) | Transformer (DiT) | DiT代码库,Emu | 开源研究领导者;押注于统一的Transformer栈处理所有模态。 |
| OpenAI | 可能为Transformer混合架构 | DALL-E 3, Sora | 封闭、产品导向;为商业优势扩展私有模型。 |
| Stability AI | U-Net → Transformer混合架构 | Stable Diffusion 3 | 务实的适配者;将Transformer理念整合到成熟的U-Net生态中,以实现渐进式改进。 |
| Google DeepMind | 多样化(U-Net, Transformer) | Imagen, VideoPoet | 研究驱动;探索多种路径(例如Imagen使用T5文本+U-Net,VideoPoet使用语言模型主干)。 |
数据要点:这份对比表清晰地勾勒出行业格局。Meta正扮演着开源先锋的角色,积极推动纯Transformer架构。OpenAI则凭借其闭源的尖端产品保持商业领先。Stability AI采取了更为务实的中间路线,在现有成功基础上融合新思想。而Google DeepMind则延续其多线探索的研究风格。这种分化表明,生成式视觉模型的“终极架构”之争远未结束,但Transformer无疑已成为不可忽视的核心力量。