Meta DiT：Transformer架构如何重塑扩散模型的未来

2026年4月22日 05:19 AINews GitHub April 2026

⭐ 8516

来源：GitHub Transformer architecture 归档：April 2026

Meta开源的扩散Transformer（DiT）项目，标志着生成式AI迎来了一次根本性的架构变革。它用纯Transformer取代了扩散模型传统的卷积U-Net主干，展现出前所未有的可扩展性——模型性能随参数和计算量增加而可预测地提升。此举预示着视觉与语言生成架构可能走向统一。

Meta基础AI研究（FAIR）团队发布的DiT，是生成式图像模型演进历程中的一个关键转折点。多年来，用于图像合成的扩散过程一直由U-Net架构主导，这种卷积神经网络设计擅长捕捉局部空间特征。DiT挑战了这一传统，它证明Transformer——那个彻底改变了自然语言处理的架构——不仅适用于扩散模型，而且具备更优越的缩放特性。其核心创新在于“分块化”处理：将输入图像分割成小块，并视为一系列标记序列，类似于句子中的单词。这使得模型能够利用Transformer的全局注意力机制，捕捉长程依赖关系。论文数据显示，DiT模型性能随规模扩大而持续提升，最大模型在ImageNet 256x256上取得了2.27的顶尖FID分数。这不仅在质量上超越了基于U-Net的同类模型，其前向传播的计算开销（GFLOPs）也显示出潜在的效率优势。DiT的出现，正推动着从OpenAI、Stability AI到Google DeepMind等主要玩家重新评估其技术路线，一场关于生成式AI基础架构的竞赛已然拉开序幕。

技术深度解析

DiT的核心，是从序列建模的视角重新构想扩散去噪过程。在Stable Diffusion等传统模型中，U-Net直接在含噪的潜在图像上操作，使用卷积层逐步细化。而DiT则首先将含噪输入编码成一个序列。这是通过一个分块化层实现的。对于一个256x256的图像，若块大小为2，模型会创建一个128x128 = 16,384个标记的序列。每个标记都是一个2x2像素块的扁平化表示。随后，这个序列由标准的Transformer编码器进行处理。

DiT模块通过两个关键的条件调节机制进行增强，以指导生成过程：
1. 自适应层归一化（adaLN）：DiT不使用标准的LayerNorm，而是采用一种条件化版本，其缩放和移位参数由一个基于扩散时间步`t`的小型网络动态预测。这相当于告诉Transformer当前输入“噪声程度如何”。
2. 条件类别嵌入：对于基于类别的条件生成，类别标签会被嵌入并注入模型，通常通过交叉注意力或额外的调制层实现，从而引导模型生成特定类别的图像。

经过一系列这种改进的Transformer块处理后，序列通过一个最终的线性层解码回噪声预测（或图像预测，取决于具体公式），该线性层负责重建图像块。

DiT论文中最引人注目的数据关乎其可扩展性。团队训练了参数规模从6亿到60亿不等的模型。

| 模型变体 | 参数（G） | 前向传播GFLOPs | FID-50K（ImageNet 256x256） |
|----------------|-----------|----------------|----------------------------|
| DiT-XL/2 | ~3.0 | ~119 | 9.62 |
| DiT-XL/2 (cfg)| ~3.0 | ~119 | 2.27 |
| DiT-L/2 | ~1.2 | ~76 | 12.24 |
| U-Net (ADM) | ~0.7 | ~281 | 10.94 |

*注：“cfg”表示使用了无分类器指导，这是一种提升生成质量的技术。GFLOPs以256x256图像测量。*

数据要点：上表揭示了两点关键洞察。首先，最大的DiT模型（DiT-XL/2）在启用指导后，取得了2.27的顶尖FID分数，显著优于基于U-Net的同类ADM模型。其次，也是更重要的一点，在参数量相近的情况下，DiT基于Transformer的前向传播计算开销（GFLOPs）比卷积U-Net更高效，这凸显了其在规模化时的潜在效率优势。

官方的`facebookresearch/dit` GitHub仓库提供了一个文档齐全的代码库，用于训练和推理。关键文件包括包含核心DiT块定义的`models.py`，以及包含基本训练循环的`train.py`。社区已在此基础上进行拓展；例如，`Projected_DiT`仓库探索了通过CLIP文本编码器集成文本条件，将DiT与Stable Diffusion等文生图模型连接起来。

关键参与者与案例研究

DiT的发展，是一场旨在定义生成式AI基础架构的更广泛战略竞争的一部分。由William Peebles（DiT论文合著者）等研究人员领导的Meta FAIR团队，明确押注于Transformer的统一能力。这与Meta更广泛地推动如Segment Anything Model（SAM）及其Llama语言模型等架构的战略一致，即青睐可扩展的通用设计。

OpenAI的DALL-E 3及其视频生成模型Sora的底层技术，也被怀疑利用了基于Transformer的扩散或类扩散过程。尽管未开源，但其输出的质量和连贯性表明，该公司在用于视觉数据的、可扩展的基于注意力的架构上投入巨大。以U-Net为基础的Stable Diffusion背后的公司Stability AI，如今也在积极探索Transformer集成。其Stable Diffusion 3的中阶模型明确采用了“多模态扩散Transformer（MMDiT）”，这直接承认了DiT的影响力。

| 实体 | 核心架构 | 关键产品/模型 | 对DiT/Transformers的战略定位 |
|------|----------|---------------|-----------------------------|
| Meta (FAIR) | Transformer (DiT) | DiT代码库，Emu | 开源研究领导者；押注于统一的Transformer栈处理所有模态。 |
| OpenAI | 可能为Transformer混合架构 | DALL-E 3, Sora | 封闭、产品导向；为商业优势扩展私有模型。 |
| Stability AI | U-Net → Transformer混合架构 | Stable Diffusion 3 | 务实的适配者；将Transformer理念整合到成熟的U-Net生态中，以实现渐进式改进。 |
| Google DeepMind | 多样化（U-Net, Transformer） | Imagen, VideoPoet | 研究驱动；探索多种路径（例如Imagen使用T5文本+U-Net，VideoPoet使用语言模型主干）。 |

数据要点：这份对比表清晰地勾勒出行业格局。Meta正扮演着开源先锋的角色，积极推动纯Transformer架构。OpenAI则凭借其闭源的尖端产品保持商业领先。Stability AI采取了更为务实的中间路线，在现有成功基础上融合新思想。而Google DeepMind则延续其多线探索的研究风格。这种分化表明，生成式视觉模型的“终极架构”之争远未结束，但Transformer无疑已成为不可忽视的核心力量。

时间归档

常见问题

GitHub 热点“Meta's DiT: How Transformer Architecture Is Reshaping the Future of Diffusion Models”主要讲了什么？

The release of DiT by Meta's Fundamental AI Research (FAIR) team marks a pivotal moment in the evolution of generative image models. For years, the diffusion process for image synt…

这个 GitHub 项目在“DiT vs Stable Diffusion architecture comparison”上为什么会引发关注？

At its heart, DiT re-imagines the diffusion denoising process through the lens of sequence modeling. The traditional U-Net in models like Stable Diffusion operates on the noisy latent image directly, using convolutional…

从“How to train a Diffusion Transformer from scratch”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 8516，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。

Meta DiT：Transformer架构如何重塑扩散模型的未来

技术深度解析

关键参与者与案例研究

更多来自 GitHub

相关专题

时间归档

延伸阅读

常见问题