MaskGIT：谷歌双向Transformer如何重写图像生成速度

2026年6月19日 12:06 AINews GitHub June 2026

⭐ 561

来源：GitHub 归档：June 2026

谷歌研究院正式开源MaskGIT，一款基于JAX的掩码图像生成模型，彻底颠覆了自回归生成的传统范式。通过双向Transformer与迭代掩码预测，它能在极短时间内生成高分辨率图像，且质量毫不妥协——这是从串行解码到并行解码的范式革命。

谷歌研究院以官方JAX实现形式发布了MaskGIT，引入了一种根本不同的图像生成方法。与PixelCNN或DALL-E等自回归模型按固定顺序逐个生成像素或token不同，MaskGIT从一个完全掩码的潜在序列开始，并行迭代预测最可信的token。这种双向、非自回归的解码方式，使其生成一张256x256图像仅需约10步，而自回归模型则需要256步甚至更多。结果是在保持竞争性FID分数的同时，推理速度提升了10-50倍。该模型使用类似BERT的掩码建模目标进行训练，但应用于来自VQGAN编码器的视觉token。这项工作的意义在于，它证明了并行解码可以在图像生成中实现与自回归模型相当的质量，同时大幅降低计算成本，为实时应用和边缘部署打开了新的大门。

技术深度解析

MaskGIT的核心创新在于，用双向迭代精炼过程取代了自回归Transformer的从左到右串行解码。其架构由三个主要组件构成：一个将图像压缩为离散潜在空间（256x256图像对应256个token）的VQGAN编码器-解码器；一个同时处理全部掩码token的双向Transformer主干；以及一个决定每一步预测哪些token的掩码调度策略。

掩码调度： 训练期间，随机掩码一部分token，模型学习根据未掩码上下文预测原始token。这与BERT的掩码语言建模完全相同，但应用于视觉token。推理时，模型从所有token被掩码开始。每次迭代，它为每个掩码token预测概率，选择置信度最高的token并将其解除掩码。每步解除掩码的token数量遵循余弦调度：初始阶段解除大量token（高置信度），后续步骤解除更少、更难的token。这种迭代精炼使模型能够先建立粗略结构，再填充精细细节。

并行解码 vs. 自回归： 性能优势的关键来自并行化。自回归模型必须一次计算一个token，每一步都需要一次完整的Transformer前向传播。MaskGIT每次迭代在一次前向传播中计算所有token预测，总共只需8-12次迭代。对于256x256图像（256个token），这意味着8-12次前向传播对比256次。在TPUv4上，MaskGIT生成一张256x256图像约需0.2秒，而自回归基线约需2.5秒。

基准测试性能：

| 模型 | 类型 | 生成256x256图像所需步数 | FID（ImageNet 256x256） | 推理时间（TPUv4） |
|---|---|---|---|---|
| MaskGIT | 非自回归（双向） | 8-12 | 6.18 | 0.2s |
| 自回归基线 | 自回归 | 256 | 5.91 | 2.5s |
| VQGAN + 自回归 | 自回归 | 256 | 7.94 | 3.1s |
| DALL-E（离散VAE） | 自回归 | 1024 | 17.9 | ~10s |

数据要点： MaskGIT相比自回归基线实现了12.5倍加速，FID仅下降0.27——这是一个卓越的权衡。与DALL-E的差距甚至更大。这表明，对于许多对延迟敏感的实际应用，MaskGIT的方法更具优势。

JAX实现细节： 官方实现使用JAX搭配Flax和Optax。它利用`pmap`实现跨多个TPU的数据并行，以及`jit`编译进行图优化。代码库包含ImageNet和COCO的训练脚本，以及预训练检查点。代码结构模块化，允许研究人员替换VQGAN编码器或尝试不同的掩码调度。

关键参与者与案例研究

谷歌研究院（发起者）： MaskGIT论文由谷歌研究院Brain团队的Huiwen Chang、Han Zhang、Lu Jiang等人撰写。该团队在推动图像生成方面有着良好记录，包括对VQGAN和Muse（后者是基于MaskGIT思想构建的后续文本到图像模型）的贡献。谷歌的策略很明确：投资非自回归方法以降低生成式AI的计算成本，使其更易于云端和边缘部署。

竞争方法：

| 方法 | 代表性模型 | 解码策略 | 速度 | 质量（FID） |
|---|---|---|---|---|
| 自回归 | DALL-E 2, Parti | 串行 | 慢 | 高 |
| 扩散 | Stable Diffusion, Imagen | 迭代去噪（50-100步） | 中等 | 非常高 |
| 掩码（非自回归） | MaskGIT, Muse | 迭代掩码（8-12步） | 快 | 高 |
| 基于GAN | StyleGAN-XL | 单次前向传播 | 非常快 | 高（但多样性较低） |

数据要点： MaskGIT在速度与质量之间找到了一个甜蜜点。扩散模型在质量上仍领先（例如Stable Diffusion在COCO上达到FID约4.0），但需要50-100步。GAN速度最快，但存在模式崩溃问题。MaskGIT提供了一个引人注目的中间地带。

案例研究：Muse（谷歌，2023）： Muse是一个直接扩展MaskGIT架构的文本到图像模型。它使用预训练语言模型（T5-XXL）进行文本条件控制，并使用掩码图像Transformer（MaskGIT）进行生成。Muse在MS-COCO上达到了最先进的FID（6.06），同时仅用10-15步生成图像。这表明MaskGIT的方法可以扩展到大规模文本到图像生成。

案例研究：NVIDIA的eDiff-I： NVIDIA的eDiff-I使用扩散模型集成，但需要250步以上才能生成高质量图像。虽然它实现了略好的FID分数，但推理成本高出一个数量级。这凸显了MaskGIT所解决的权衡问题。

行业影响与市场动态

MaskGIT的影响超越了学术基准。

时间归档

常见问题

GitHub 热点“MaskGIT: How Google's Bidirectional Transformer Rewrites Image Generation Speed”主要讲了什么？

MaskGIT, released by Google Research as an official JAX implementation, introduces a fundamentally different approach to image generation. Instead of generating pixels or tokens on…

这个 GitHub 项目在“MaskGIT vs Muse comparison”上为什么会引发关注？

MaskGIT's core innovation is replacing the sequential, left-to-right decoding of autoregressive transformers with a bidirectional, iterative refinement process. The architecture consists of three main components: a VQGAN…

从“MaskGIT inference speed benchmark”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 561，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。