苹果AIM视觉模型：自回归图像建模或将重塑AI格局

苹果机器学习研究团队正式发布了其AIM（自回归图像模型）项目的代码与模型检查点，涵盖AIMv1和AIMv2两个版本。此次开源标志着对以MAE和SimMIM为代表的掩码图像建模（MIM）主流路径的重大偏离。AIM将图像块视为一个token序列，并训练Transformer按照光栅扫描顺序预测下一个图像块——这直接对应了NLP中自回归语言建模的视觉版本。项目提供了从小型到超大型多种规模的预训练Vision Transformer（ViT）骨干网络，并在图像分类、目标检测和语义分割等下游任务中展现出强劲性能。尽管此次发布主要是一项研究产物，但其技术路线与开源姿态已引发业界广泛关注。

技术深度解析

苹果的AIM项目是一次大胆的尝试，旨在将NLP中的自回归范式引入计算机视觉领域。其核心架构是标准的Vision Transformer（ViT），将图像处理为一系列不重叠的图像块序列。与BEiT或MAE采用的掩码图像建模（MIM）方法——随机掩码部分图像块并要求模型重建它们——不同，AIM训练模型按照固定的光栅扫描顺序（从左到右、从上到下）预测下一个图像块。这是一个因果预测任务：模型只能看到当前图像块左侧和上方的图像块，并必须输出一个可解码为实际像素值或该图像块离散化token的表征。

架构细节：
- 骨干网络： 标准ViT，在预训练期间应用因果注意力掩码。该掩码确保每个图像块只能关注光栅顺序中位于其之前的图像块。
- 预训练目标： 对离散化图像块token使用交叉熵损失，借助一个经过学习的dVAE分词器（类似于DALL-E的方法），将每个16×16的图像块压缩为来自8192个token词汇表的离散编码。模型预测下一个图像块的token ID。
- 模型规模： AIMv2提供ViT-S、ViT-B、ViT-L和ViT-H四种变体，参数量从2200万到6.75亿不等。最大模型（ViT-H）拥有6.75亿参数，并在苹果私有数据集的12亿张图像上完成训练。

与竞争方法的对比：

| 模型 | 预训练目标 | 参数量 | ImageNet-1K Top-1（微调后） | 训练数据 | 训练轮数 |
|---|---|---|---|---|---|
| AIMv2 ViT-H | 自回归下一个图像块 | 6.75亿 | 88.2% | 12亿私有图像 | 300 |
| MAE ViT-H | 掩码重建（75%掩码率） | 6.32亿 | 87.8% | ImageNet-1K（130万） | 1600 |
| DINOv2 ViT-g | 自蒸馏 + iBot | 11亿 | 88.5% | 1.42亿精选图像 | 500 |
| CLIP ViT-L | 对比学习（图像-文本） | 4.28亿 | 85.4%（零样本） | 4亿图像-文本对 | — |

数据要点： AIMv2 ViT-H在ImageNet上取得了具有竞争力的88.2%准确率，尽管其目标更简单且总训练轮数少于MAE。然而，它依赖一个规模大得多的私有数据集（12亿张图像 vs. MAE的130万张）。这表明自回归目标可能更“吃数据”，但每轮训练效率更高。

工程洞察：
- 因果注意力掩码在预训练期间引入了计算开销，因为模型无法使用ViT的标准双向注意力。但在微调阶段，掩码被移除，模型采用完整的双向注意力，从而能够利用全局上下文。
- dVAE分词器是一个关键组件。苹果在ImageNet上训练了一个拥有8192个编码的分词器，将每个图像块映射为一个离散token。该分词器并未开源，这意味着研究人员若不自行训练分词器，就无法完全复现预训练流程。
- 代码库使用PyTorch编写，并采用`timm`库进行模型定义。GitHub仓库（apple/ml-aim）提供了预训练权重和推理脚本，但训练代码并未完整发布——仅包含评估和微调脚本。

要点总结： AIM的技术贡献在于其简洁优雅，但对私有数据集和分词器的依赖限制了可复现性。因果预训练方法在每步计算上效率较高，但可能需要更多数据才能达到DINOv2等对比方法的性能水平。

关键参与者与案例研究

此次发布主要出自苹果机器学习研究团队，由Maxime Oquab和Timothée Darcet（两人也曾参与DINOv2项目）等研究人员主导。该项目建立在苹果此前在自监督学习和视觉Transformer方面的研究基础之上。

竞争产品与方法：

| 组织 | 模型 | 方法 | 开源？ | 关键差异化优势 |
|---|---|---|---|---|
| 苹果 | AIMv2 | 自回归下一个图像块 | 是（代码+权重） | 简洁性；无需掩码策略 |
| Meta | DINOv2 | 自蒸馏 + iBot | 是 | 密集任务上表现最佳；特征质量强 |
| Google | ViT + MAE | 掩码自编码器 | 是 | 出色的样本效率；适用于小数据量 |
| OpenAI | CLIP | 对比学习（图像-文本） | 否（权重可用） | 零样本能力；多模态 |
| 微软 | BEiT-3 | 掩码图像+文本建模 | 是 | 统一的视觉-语言预训练 |

案例研究：Meta的DINOv2
Meta于2023年发布的DINOv2，通过将自蒸馏与掩码图像建模（iBot）相结合，为自监督视觉模型树立了新标杆。其11亿参数的ViT-g模型在1.42亿精选图像上训练，实现了88.5%的ImageNet Top-1准确率。DINOv2的特征在深度估计和语义分割等密集预测任务上表现尤为出色，往往超越有监督模型。AIMv2的88.2%准确率与之接近但略逊一筹，且尚不清楚

时间归档

延伸阅读

常见问题

GitHub 热点“Apple's AIM Vision Models: Autoregressive Image Modeling Could Reshape AI”主要讲了什么？

Apple's Machine Learning Research team has released the code and model checkpoints for its AIM (Autoregressive Image Model) project, comprising AIMv1 and AIMv2. This open-source re…

这个 GitHub 项目在“How does AIM compare to DINOv2 for object detection?”上为什么会引发关注？

Apple's AIM project represents a bold attempt to bridge the autoregressive paradigm from NLP into computer vision. The core architecture is a standard Vision Transformer (ViT) that processes images as a sequence of non-o…

从“Can AIM be used for image generation?”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 1419，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。