Meta DiT:Transformer架构如何重塑扩散模型的未来

GitHub April 2026
⭐ 8516
来源:GitHubMeta AItransformer architecture归档:April 2026
Meta开源的扩散Transformer(DiT)项目,标志着生成式AI迎来了一次根本性的架构变革。它用纯Transformer取代了扩散模型传统的卷积U-Net主干,展现出前所未有的可扩展性——模型性能随参数和计算量增加而可预测地提升。此举预示着视觉与语言生成架构可能走向统一。

Meta基础AI研究(FAIR)团队发布的DiT,是生成式图像模型演进历程中的一个关键转折点。多年来,用于图像合成的扩散过程一直由U-Net架构主导,这种卷积神经网络设计擅长捕捉局部空间特征。DiT挑战了这一传统,它证明Transformer——那个彻底改变了自然语言处理的架构——不仅适用于扩散模型,而且具备更优越的缩放特性。其核心创新在于“分块化”处理:将输入图像分割成小块,并视为一系列标记序列,类似于句子中的单词。这使得模型能够利用Transformer的全局注意力机制,捕捉长程依赖关系。论文数据显示,DiT模型性能随规模扩大而持续提升,最大模型在ImageNet 256x256上取得了2.27的顶尖FID分数。这不仅在质量上超越了基于U-Net的同类模型,其前向传播的计算开销(GFLOPs)也显示出潜在的效率优势。DiT的出现,正推动着从OpenAI、Stability AI到Google DeepMind等主要玩家重新评估其技术路线,一场关于生成式AI基础架构的竞赛已然拉开序幕。

技术深度解析

DiT的核心,是从序列建模的视角重新构想扩散去噪过程。在Stable Diffusion等传统模型中,U-Net直接在含噪的潜在图像上操作,使用卷积层逐步细化。而DiT则首先将含噪输入编码成一个序列。这是通过一个分块化层实现的。对于一个256x256的图像,若块大小为2,模型会创建一个128x128 = 16,384个标记的序列。每个标记都是一个2x2像素块的扁平化表示。随后,这个序列由标准的Transformer编码器进行处理。

DiT模块通过两个关键的条件调节机制进行增强,以指导生成过程:
1. 自适应层归一化(adaLN):DiT不使用标准的LayerNorm,而是采用一种条件化版本,其缩放和移位参数由一个基于扩散时间步`t`的小型网络动态预测。这相当于告诉Transformer当前输入“噪声程度如何”。
2. 条件类别嵌入:对于基于类别的条件生成,类别标签会被嵌入并注入模型,通常通过交叉注意力或额外的调制层实现,从而引导模型生成特定类别的图像。

经过一系列这种改进的Transformer块处理后,序列通过一个最终的线性层解码回噪声预测(或图像预测,取决于具体公式),该线性层负责重建图像块。

DiT论文中最引人注目的数据关乎其可扩展性。团队训练了参数规模从6亿到60亿不等的模型。

| 模型变体 | 参数(G) | 前向传播GFLOPs | FID-50K(ImageNet 256x256) |
|----------------|-----------|----------------|----------------------------|
| DiT-XL/2 | ~3.0 | ~119 | 9.62 |
| DiT-XL/2 (cfg)| ~3.0 | ~119 | 2.27 |
| DiT-L/2 | ~1.2 | ~76 | 12.24 |
| U-Net (ADM) | ~0.7 | ~281 | 10.94 |

*注:“cfg”表示使用了无分类器指导,这是一种提升生成质量的技术。GFLOPs以256x256图像测量。*

数据要点:上表揭示了两点关键洞察。首先,最大的DiT模型(DiT-XL/2)在启用指导后,取得了2.27的顶尖FID分数,显著优于基于U-Net的同类ADM模型。其次,也是更重要的一点,在参数量相近的情况下,DiT基于Transformer的前向传播计算开销(GFLOPs)比卷积U-Net更高效,这凸显了其在规模化时的潜在效率优势。

官方的`facebookresearch/dit` GitHub仓库提供了一个文档齐全的代码库,用于训练和推理。关键文件包括包含核心DiT块定义的`models.py`,以及包含基本训练循环的`train.py`。社区已在此基础上进行拓展;例如,`Projected_DiT`仓库探索了通过CLIP文本编码器集成文本条件,将DiT与Stable Diffusion等文生图模型连接起来。

关键参与者与案例研究

DiT的发展,是一场旨在定义生成式AI基础架构的更广泛战略竞争的一部分。由William Peebles(DiT论文合著者)等研究人员领导的Meta FAIR团队,明确押注于Transformer的统一能力。这与Meta更广泛地推动如Segment Anything Model(SAM)及其Llama语言模型等架构的战略一致,即青睐可扩展的通用设计。

OpenAI的DALL-E 3及其视频生成模型Sora的底层技术,也被怀疑利用了基于Transformer的扩散或类扩散过程。尽管未开源,但其输出的质量和连贯性表明,该公司在用于视觉数据的、可扩展的基于注意力的架构上投入巨大。以U-Net为基础的Stable Diffusion背后的公司Stability AI,如今也在积极探索Transformer集成。其Stable Diffusion 3的中阶模型明确采用了“多模态扩散Transformer(MMDiT)”,这直接承认了DiT的影响力。

| 实体 | 核心架构 | 关键产品/模型 | 对DiT/Transformers的战略定位 |
|------|----------|---------------|-----------------------------|
| Meta (FAIR) | Transformer (DiT) | DiT代码库,Emu | 开源研究领导者;押注于统一的Transformer栈处理所有模态。 |
| OpenAI | 可能为Transformer混合架构 | DALL-E 3, Sora | 封闭、产品导向;为商业优势扩展私有模型。 |
| Stability AI | U-Net → Transformer混合架构 | Stable Diffusion 3 | 务实的适配者;将Transformer理念整合到成熟的U-Net生态中,以实现渐进式改进。 |
| Google DeepMind | 多样化(U-Net, Transformer) | Imagen, VideoPoet | 研究驱动;探索多种路径(例如Imagen使用T5文本+U-Net,VideoPoet使用语言模型主干)。 |

数据要点:这份对比表清晰地勾勒出行业格局。Meta正扮演着开源先锋的角色,积极推动纯Transformer架构。OpenAI则凭借其闭源的尖端产品保持商业领先。Stability AI采取了更为务实的中间路线,在现有成功基础上融合新思想。而Google DeepMind则延续其多线探索的研究风格。这种分化表明,生成式视觉模型的“终极架构”之争远未结束,但Transformer无疑已成为不可忽视的核心力量。

更多来自 GitHub

ai-forever的NER-BERT如何填补俄语AI的关键空白GitHub仓库ai-forever/ner-bert是一个基于PyTorch/TensorFlow的俄语命名实体识别实现,其核心架构建立在Google开创的Transformer-based BERT之上。项目的核心价值并非架构创新,而在Libratbag:一个Linux DBus守护进程如何统一游戏鼠标配置Libratbag是一个开源项目,其核心是作为一个DBus守护进程运行,旨在为Linux系统上的高级输入设备——主要是游戏与生产力鼠标——创建一个统一的配置接口。其根本创新在于架构设计:它将底层的硬件通信与面向用户的应用程序解耦。该守护进程Sidetree协议:驱动下一代去中心化身份的可扩展基础设施去中心化身份(DID)长期被困于一个“三难困境”之中:它必须具备可扩展性、安全性且成本效益高,才能实现主流应用。将每一次身份创建、更新和恢复交易都直接写入比特币或以太坊等基础层,不仅成本高昂得令人望而却步,而且速度缓慢,这限制了DID系统只查看来源专题页GitHub 已收录 897 篇文章

相关专题

Meta AI13 篇相关文章transformer architecture22 篇相关文章

时间归档

April 20261992 篇已发布文章

延伸阅读

OpenAI改进版DDPM:学习方差与噪声调度如何重塑扩散模型OpenAI开源了其权威的改进版去噪扩散概率模型实现,为前沿图像生成提供了清晰的生产级代码库。此次发布凝结了多项关键突破,包括学习方差与优化噪声调度,在输出保真度与训练效率上带来显著提升。Meta ImageBind 开创六模态统一嵌入空间,重塑多模态AI范式Meta AI 的 ImageBind 项目实现了多模态人工智能的范式跃迁。它通过创建统一的嵌入空间,将图像、文本、音频、深度、热感和IMU数据六种模态联结起来,无需显式配对的训练数据即可实现前所未有的跨模态理解。这一突破对下一代AI应用具Meta推出Segment Anything模型:以基础模型范式重塑计算机视觉Meta AI发布的Segment Anything Model(SAM)标志着计算机视觉领域的范式转变。它从特定任务模型演进为单一、可提示的通用分割基础模型,通过在海量掩码数据上训练,实现了对任意图像中物体的交互式零样本分割,极大降低了高记忆稀疏注意力:重新定义1亿令牌上下文窗口的可扩展框架Evermind AI提出的全新研究框架“记忆稀疏注意力”,通过将稀疏注意力与可训练的潜在记忆相结合,为大型语言模型最顽固的瓶颈——上下文长度——提供了革命性解决方案。该框架理论上能处理长达1亿令牌的序列,有望从根本上重塑长文本处理的范式。

常见问题

GitHub 热点“Meta's DiT: How Transformer Architecture Is Reshaping the Future of Diffusion Models”主要讲了什么?

The release of DiT by Meta's Fundamental AI Research (FAIR) team marks a pivotal moment in the evolution of generative image models. For years, the diffusion process for image synt…

这个 GitHub 项目在“DiT vs Stable Diffusion architecture comparison”上为什么会引发关注?

At its heart, DiT re-imagines the diffusion denoising process through the lens of sequence modeling. The traditional U-Net in models like Stable Diffusion operates on the noisy latent image directly, using convolutional…

从“How to train a Diffusion Transformer from scratch”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 8516,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。