MaskGIT:谷歌双向Transformer如何重写图像生成速度

GitHub June 2026
⭐ 561
来源:GitHub归档:June 2026
谷歌研究院正式开源MaskGIT,一款基于JAX的掩码图像生成模型,彻底颠覆了自回归生成的传统范式。通过双向Transformer与迭代掩码预测,它能在极短时间内生成高分辨率图像,且质量毫不妥协——这是从串行解码到并行解码的范式革命。

谷歌研究院以官方JAX实现形式发布了MaskGIT,引入了一种根本不同的图像生成方法。与PixelCNN或DALL-E等自回归模型按固定顺序逐个生成像素或token不同,MaskGIT从一个完全掩码的潜在序列开始,并行迭代预测最可信的token。这种双向、非自回归的解码方式,使其生成一张256x256图像仅需约10步,而自回归模型则需要256步甚至更多。结果是在保持竞争性FID分数的同时,推理速度提升了10-50倍。该模型使用类似BERT的掩码建模目标进行训练,但应用于来自VQGAN编码器的视觉token。这项工作的意义在于,它证明了并行解码可以在图像生成中实现与自回归模型相当的质量,同时大幅降低计算成本,为实时应用和边缘部署打开了新的大门。

技术深度解析

MaskGIT的核心创新在于,用双向迭代精炼过程取代了自回归Transformer的从左到右串行解码。其架构由三个主要组件构成:一个将图像压缩为离散潜在空间(256x256图像对应256个token)的VQGAN编码器-解码器;一个同时处理全部掩码token的双向Transformer主干;以及一个决定每一步预测哪些token的掩码调度策略。

掩码调度: 训练期间,随机掩码一部分token,模型学习根据未掩码上下文预测原始token。这与BERT的掩码语言建模完全相同,但应用于视觉token。推理时,模型从所有token被掩码开始。每次迭代,它为每个掩码token预测概率,选择置信度最高的token并将其解除掩码。每步解除掩码的token数量遵循余弦调度:初始阶段解除大量token(高置信度),后续步骤解除更少、更难的token。这种迭代精炼使模型能够先建立粗略结构,再填充精细细节。

并行解码 vs. 自回归: 性能优势的关键来自并行化。自回归模型必须一次计算一个token,每一步都需要一次完整的Transformer前向传播。MaskGIT每次迭代在一次前向传播中计算所有token预测,总共只需8-12次迭代。对于256x256图像(256个token),这意味着8-12次前向传播对比256次。在TPUv4上,MaskGIT生成一张256x256图像约需0.2秒,而自回归基线约需2.5秒。

基准测试性能:

| 模型 | 类型 | 生成256x256图像所需步数 | FID(ImageNet 256x256) | 推理时间(TPUv4) |
|---|---|---|---|---|
| MaskGIT | 非自回归(双向) | 8-12 | 6.18 | 0.2s |
| 自回归基线 | 自回归 | 256 | 5.91 | 2.5s |
| VQGAN + 自回归 | 自回归 | 256 | 7.94 | 3.1s |
| DALL-E(离散VAE) | 自回归 | 1024 | 17.9 | ~10s |

数据要点: MaskGIT相比自回归基线实现了12.5倍加速,FID仅下降0.27——这是一个卓越的权衡。与DALL-E的差距甚至更大。这表明,对于许多对延迟敏感的实际应用,MaskGIT的方法更具优势。

JAX实现细节: 官方实现使用JAX搭配Flax和Optax。它利用`pmap`实现跨多个TPU的数据并行,以及`jit`编译进行图优化。代码库包含ImageNet和COCO的训练脚本,以及预训练检查点。代码结构模块化,允许研究人员替换VQGAN编码器或尝试不同的掩码调度。

关键参与者与案例研究

谷歌研究院(发起者): MaskGIT论文由谷歌研究院Brain团队的Huiwen Chang、Han Zhang、Lu Jiang等人撰写。该团队在推动图像生成方面有着良好记录,包括对VQGAN和Muse(后者是基于MaskGIT思想构建的后续文本到图像模型)的贡献。谷歌的策略很明确:投资非自回归方法以降低生成式AI的计算成本,使其更易于云端和边缘部署。

竞争方法:

| 方法 | 代表性模型 | 解码策略 | 速度 | 质量(FID) |
|---|---|---|---|---|
| 自回归 | DALL-E 2, Parti | 串行 | 慢 | 高 |
| 扩散 | Stable Diffusion, Imagen | 迭代去噪(50-100步) | 中等 | 非常高 |
| 掩码(非自回归) | MaskGIT, Muse | 迭代掩码(8-12步) | 快 | 高 |
| 基于GAN | StyleGAN-XL | 单次前向传播 | 非常快 | 高(但多样性较低) |

数据要点: MaskGIT在速度与质量之间找到了一个甜蜜点。扩散模型在质量上仍领先(例如Stable Diffusion在COCO上达到FID约4.0),但需要50-100步。GAN速度最快,但存在模式崩溃问题。MaskGIT提供了一个引人注目的中间地带。

案例研究:Muse(谷歌,2023): Muse是一个直接扩展MaskGIT架构的文本到图像模型。它使用预训练语言模型(T5-XXL)进行文本条件控制,并使用掩码图像Transformer(MaskGIT)进行生成。Muse在MS-COCO上达到了最先进的FID(6.06),同时仅用10-15步生成图像。这表明MaskGIT的方法可以扩展到大规模文本到图像生成。

案例研究:NVIDIA的eDiff-I: NVIDIA的eDiff-I使用扩散模型集成,但需要250步以上才能生成高质量图像。虽然它实现了略好的FID分数,但推理成本高出一个数量级。这凸显了MaskGIT所解决的权衡问题。

行业影响与市场动态

MaskGIT的影响超越了学术基准。

更多来自 GitHub

社交自动上传崛起:一个12.7k星GitHub工具如何重塑内容分发dreammis/social-auto-upload 仓库在GitHub上已累计获得12,689颗星,反映出内容创作者与MCN机构对统一、自动化视频发布管道的巨大且未被满足的需求。该工具支持直接上传至抖音、小红书、视频号、TikTok、YDeepFloyd IF:Stability AI 像素级扩散模型,挑战隐空间图像生成霸权DeepFloyd IF 代表着一次刻意的架构背离,它挑战了当前主导文生图领域的隐空间扩散模型。由 Stability AI 开发的该模型在像素层面处理图像,绕开了隐空间方法固有的压缩与信息损失。在需要精确文字渲染、复杂空间关系与细微细节的Karlo 开源扩散模型挑战 DALL·E 2:Kakao Brain 的 Transformer 架构革新文本生成图像Karlo 由 Kakao Brain 开发,代表了高质量文本生成图像民主化进程中的关键里程碑。与许多保护训练流程的专有系统不同,Karlo 发布了完整的训练和推理代码,使研究社区能够复现并在此基础上进行构建。该模型在级联扩散框架内利用改进查看来源专题页GitHub 已收录 2772 篇文章

时间归档

June 20261855 篇已发布文章

延伸阅读

提示调优:悄然重塑AI效率的微型技术Google Research 于2021年提出的提示调优(Prompt Tuning)证明,向冻结的语言模型添加一组可学习的“软提示”令牌,即可媲美全参数微调的性能。这项技术已成为参数高效微调(PEFT)的基石,让大规模模型能以极低计算成Pegasus:谷歌用“整句遮蔽”重写文本摘要规则谷歌研究院推出的Pegasus模型,通过在前训练阶段遮蔽整句关键句子,迫使模型从零学习抽象式摘要生成。本文独家解析其架构、基准测试成绩,以及对自然语言处理格局的战略影响。Google 的宏大视觉代码库:悄然驱动 Vision Transformer 霸主地位的引擎Google Research 在 GitHub 上的 big_vision 仓库,是 Vision Transformer (ViT)、SigLIP 和 MLP-Mixer 等里程碑式模型的官方代码库。AINews 深入剖析为何这一基础设Planet:谷歌潜在动力学模型,或将重塑基于模型的强化学习格局谷歌研究院推出的Planet模型,通过变分推断与循环神经网络从原始像素中学习紧凑的潜在状态表征,在部分可观测环境中实现样本高效的规划。该方法将模型预测控制与学习到的动力学相结合,攻克高维控制任务,为强化学习开辟了新路径。

常见问题

GitHub 热点“MaskGIT: How Google's Bidirectional Transformer Rewrites Image Generation Speed”主要讲了什么?

MaskGIT, released by Google Research as an official JAX implementation, introduces a fundamentally different approach to image generation. Instead of generating pixels or tokens on…

这个 GitHub 项目在“MaskGIT vs Muse comparison”上为什么会引发关注?

MaskGIT's core innovation is replacing the sequential, left-to-right decoding of autoregressive transformers with a bidirectional, iterative refinement process. The architecture consists of three main components: a VQGAN…

从“MaskGIT inference speed benchmark”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 561,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。