Meta DiT:Transformer架构如何重塑扩散模型的未来

GitHub April 2026
⭐ 8516
来源:GitHubTransformer architecture归档:April 2026
Meta开源的扩散Transformer(DiT)项目,标志着生成式AI迎来了一次根本性的架构变革。它用纯Transformer取代了扩散模型传统的卷积U-Net主干,展现出前所未有的可扩展性——模型性能随参数和计算量增加而可预测地提升。此举预示着视觉与语言生成架构可能走向统一。

Meta基础AI研究(FAIR)团队发布的DiT,是生成式图像模型演进历程中的一个关键转折点。多年来,用于图像合成的扩散过程一直由U-Net架构主导,这种卷积神经网络设计擅长捕捉局部空间特征。DiT挑战了这一传统,它证明Transformer——那个彻底改变了自然语言处理的架构——不仅适用于扩散模型,而且具备更优越的缩放特性。其核心创新在于“分块化”处理:将输入图像分割成小块,并视为一系列标记序列,类似于句子中的单词。这使得模型能够利用Transformer的全局注意力机制,捕捉长程依赖关系。论文数据显示,DiT模型性能随规模扩大而持续提升,最大模型在ImageNet 256x256上取得了2.27的顶尖FID分数。这不仅在质量上超越了基于U-Net的同类模型,其前向传播的计算开销(GFLOPs)也显示出潜在的效率优势。DiT的出现,正推动着从OpenAI、Stability AI到Google DeepMind等主要玩家重新评估其技术路线,一场关于生成式AI基础架构的竞赛已然拉开序幕。

技术深度解析

DiT的核心,是从序列建模的视角重新构想扩散去噪过程。在Stable Diffusion等传统模型中,U-Net直接在含噪的潜在图像上操作,使用卷积层逐步细化。而DiT则首先将含噪输入编码成一个序列。这是通过一个分块化层实现的。对于一个256x256的图像,若块大小为2,模型会创建一个128x128 = 16,384个标记的序列。每个标记都是一个2x2像素块的扁平化表示。随后,这个序列由标准的Transformer编码器进行处理。

DiT模块通过两个关键的条件调节机制进行增强,以指导生成过程:
1. 自适应层归一化(adaLN):DiT不使用标准的LayerNorm,而是采用一种条件化版本,其缩放和移位参数由一个基于扩散时间步`t`的小型网络动态预测。这相当于告诉Transformer当前输入“噪声程度如何”。
2. 条件类别嵌入:对于基于类别的条件生成,类别标签会被嵌入并注入模型,通常通过交叉注意力或额外的调制层实现,从而引导模型生成特定类别的图像。

经过一系列这种改进的Transformer块处理后,序列通过一个最终的线性层解码回噪声预测(或图像预测,取决于具体公式),该线性层负责重建图像块。

DiT论文中最引人注目的数据关乎其可扩展性。团队训练了参数规模从6亿到60亿不等的模型。

| 模型变体 | 参数(G) | 前向传播GFLOPs | FID-50K(ImageNet 256x256) |
|----------------|-----------|----------------|----------------------------|
| DiT-XL/2 | ~3.0 | ~119 | 9.62 |
| DiT-XL/2 (cfg)| ~3.0 | ~119 | 2.27 |
| DiT-L/2 | ~1.2 | ~76 | 12.24 |
| U-Net (ADM) | ~0.7 | ~281 | 10.94 |

*注:“cfg”表示使用了无分类器指导,这是一种提升生成质量的技术。GFLOPs以256x256图像测量。*

数据要点:上表揭示了两点关键洞察。首先,最大的DiT模型(DiT-XL/2)在启用指导后,取得了2.27的顶尖FID分数,显著优于基于U-Net的同类ADM模型。其次,也是更重要的一点,在参数量相近的情况下,DiT基于Transformer的前向传播计算开销(GFLOPs)比卷积U-Net更高效,这凸显了其在规模化时的潜在效率优势。

官方的`facebookresearch/dit` GitHub仓库提供了一个文档齐全的代码库,用于训练和推理。关键文件包括包含核心DiT块定义的`models.py`,以及包含基本训练循环的`train.py`。社区已在此基础上进行拓展;例如,`Projected_DiT`仓库探索了通过CLIP文本编码器集成文本条件,将DiT与Stable Diffusion等文生图模型连接起来。

关键参与者与案例研究

DiT的发展,是一场旨在定义生成式AI基础架构的更广泛战略竞争的一部分。由William Peebles(DiT论文合著者)等研究人员领导的Meta FAIR团队,明确押注于Transformer的统一能力。这与Meta更广泛地推动如Segment Anything Model(SAM)及其Llama语言模型等架构的战略一致,即青睐可扩展的通用设计。

OpenAI的DALL-E 3及其视频生成模型Sora的底层技术,也被怀疑利用了基于Transformer的扩散或类扩散过程。尽管未开源,但其输出的质量和连贯性表明,该公司在用于视觉数据的、可扩展的基于注意力的架构上投入巨大。以U-Net为基础的Stable Diffusion背后的公司Stability AI,如今也在积极探索Transformer集成。其Stable Diffusion 3的中阶模型明确采用了“多模态扩散Transformer(MMDiT)”,这直接承认了DiT的影响力。

| 实体 | 核心架构 | 关键产品/模型 | 对DiT/Transformers的战略定位 |
|------|----------|---------------|-----------------------------|
| Meta (FAIR) | Transformer (DiT) | DiT代码库,Emu | 开源研究领导者;押注于统一的Transformer栈处理所有模态。 |
| OpenAI | 可能为Transformer混合架构 | DALL-E 3, Sora | 封闭、产品导向;为商业优势扩展私有模型。 |
| Stability AI | U-Net → Transformer混合架构 | Stable Diffusion 3 | 务实的适配者;将Transformer理念整合到成熟的U-Net生态中,以实现渐进式改进。 |
| Google DeepMind | 多样化(U-Net, Transformer) | Imagen, VideoPoet | 研究驱动;探索多种路径(例如Imagen使用T5文本+U-Net,VideoPoet使用语言模型主干)。 |

数据要点:这份对比表清晰地勾勒出行业格局。Meta正扮演着开源先锋的角色,积极推动纯Transformer架构。OpenAI则凭借其闭源的尖端产品保持商业领先。Stability AI采取了更为务实的中间路线,在现有成功基础上融合新思想。而Google DeepMind则延续其多线探索的研究风格。这种分化表明,生成式视觉模型的“终极架构”之争远未结束,但Transformer无疑已成为不可忽视的核心力量。

更多来自 GitHub

Cursor插件规范:重塑AI代码编辑器生态的隐藏引擎Cursor,这款在开发者中迅速崛起的AI原生代码编辑器,通过发布正式插件规范与一系列官方插件,迈出了走向平台成熟度的决定性一步。该规范定义了一套清晰的API,用于构建与Cursor AI功能深度集成的扩展——包括代码补全、内联聊天、智能体Compound协议:链上借贷市场无可争议的范本Compound协议由Robert Leshner与Geoffrey Hayes于2018年推出,是无需许可的加密借贷与借款的基础层。它通过一套基于以太坊的非托管智能合约运作,为特定资产创建货币市场。用户供应资产以赚取浮动利息,或以其供应的一夜狂揽4325星:这款GitHub脚本可能让你的游戏账号永久封禁runhey/onmyojiautoscript 仓库已成为游戏自动化社区的焦点,累计获得超过4300个GitHub星标。玩家们利用它来自动完成网易《阴阳师》中重复的“魂十”刷本和御魂副本。该脚本基于OpenCV的图像匹配技术,模拟鼠标和键查看来源专题页GitHub 已收录 2367 篇文章

相关专题

Transformer architecture35 篇相关文章

时间归档

April 20263042 篇已发布文章

延伸阅读

OpenAI改进版DDPM:学习方差与噪声调度如何重塑扩散模型OpenAI开源了其权威的改进版去噪扩散概率模型实现,为前沿图像生成提供了清晰的生产级代码库。此次发布凝结了多项关键突破,包括学习方差与优化噪声调度,在输出保真度与训练效率上带来显著提升。Meta ImageBind 开创六模态统一嵌入空间,重塑多模态AI范式Meta AI 的 ImageBind 项目实现了多模态人工智能的范式跃迁。它通过创建统一的嵌入空间,将图像、文本、音频、深度、热感和IMU数据六种模态联结起来,无需显式配对的训练数据即可实现前所未有的跨模态理解。这一突破对下一代AI应用具Helios插件为ComfyUI注入多模态AI:创意边界的新突破一款名为hm-runninghub/comfyui_rh_helios的全新ComfyUI插件,集成了北京大学团队开发的Helios多模态模型,让用户无需编写代码即可在可视化节点工作流中实现图文联合理解与生成。这降低了创作者使用前沿多模态A苹果Core ML稳定扩散:设备端图像生成重新定义隐私与性能苹果正式发布基于Core ML的Stable Diffusion实现,针对Apple Silicon(M1/M2/M3)深度优化,让Mac和iPad无需联网即可快速、私密地生成图像,并充分利用神经网络引擎(ANE)实现高效推理。这一举措标志

常见问题

GitHub 热点“Meta's DiT: How Transformer Architecture Is Reshaping the Future of Diffusion Models”主要讲了什么?

The release of DiT by Meta's Fundamental AI Research (FAIR) team marks a pivotal moment in the evolution of generative image models. For years, the diffusion process for image synt…

这个 GitHub 项目在“DiT vs Stable Diffusion architecture comparison”上为什么会引发关注?

At its heart, DiT re-imagines the diffusion denoising process through the lens of sequence modeling. The traditional U-Net in models like Stable Diffusion operates on the noisy latent image directly, using convolutional…

从“How to train a Diffusion Transformer from scratch”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 8516,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。