技术深度解析
苹果的AIM项目是一次大胆的尝试,旨在将NLP中的自回归范式引入计算机视觉领域。其核心架构是标准的Vision Transformer(ViT),将图像处理为一系列不重叠的图像块序列。与BEiT或MAE采用的掩码图像建模(MIM)方法——随机掩码部分图像块并要求模型重建它们——不同,AIM训练模型按照固定的光栅扫描顺序(从左到右、从上到下)预测下一个图像块。这是一个因果预测任务:模型只能看到当前图像块左侧和上方的图像块,并必须输出一个可解码为实际像素值或该图像块离散化token的表征。
架构细节:
- 骨干网络: 标准ViT,在预训练期间应用因果注意力掩码。该掩码确保每个图像块只能关注光栅顺序中位于其之前的图像块。
- 预训练目标: 对离散化图像块token使用交叉熵损失,借助一个经过学习的dVAE分词器(类似于DALL-E的方法),将每个16×16的图像块压缩为来自8192个token词汇表的离散编码。模型预测下一个图像块的token ID。
- 模型规模: AIMv2提供ViT-S、ViT-B、ViT-L和ViT-H四种变体,参数量从2200万到6.75亿不等。最大模型(ViT-H)拥有6.75亿参数,并在苹果私有数据集的12亿张图像上完成训练。
与竞争方法的对比:
| 模型 | 预训练目标 | 参数量 | ImageNet-1K Top-1(微调后) | 训练数据 | 训练轮数 |
|---|---|---|---|---|---|
| AIMv2 ViT-H | 自回归下一个图像块 | 6.75亿 | 88.2% | 12亿私有图像 | 300 |
| MAE ViT-H | 掩码重建(75%掩码率) | 6.32亿 | 87.8% | ImageNet-1K(130万) | 1600 |
| DINOv2 ViT-g | 自蒸馏 + iBot | 11亿 | 88.5% | 1.42亿精选图像 | 500 |
| CLIP ViT-L | 对比学习(图像-文本) | 4.28亿 | 85.4%(零样本) | 4亿图像-文本对 | — |
数据要点: AIMv2 ViT-H在ImageNet上取得了具有竞争力的88.2%准确率,尽管其目标更简单且总训练轮数少于MAE。然而,它依赖一个规模大得多的私有数据集(12亿张图像 vs. MAE的130万张)。这表明自回归目标可能更“吃数据”,但每轮训练效率更高。
工程洞察:
- 因果注意力掩码在预训练期间引入了计算开销,因为模型无法使用ViT的标准双向注意力。但在微调阶段,掩码被移除,模型采用完整的双向注意力,从而能够利用全局上下文。
- dVAE分词器是一个关键组件。苹果在ImageNet上训练了一个拥有8192个编码的分词器,将每个图像块映射为一个离散token。该分词器并未开源,这意味着研究人员若不自行训练分词器,就无法完全复现预训练流程。
- 代码库使用PyTorch编写,并采用`timm`库进行模型定义。GitHub仓库(apple/ml-aim)提供了预训练权重和推理脚本,但训练代码并未完整发布——仅包含评估和微调脚本。
要点总结: AIM的技术贡献在于其简洁优雅,但对私有数据集和分词器的依赖限制了可复现性。因果预训练方法在每步计算上效率较高,但可能需要更多数据才能达到DINOv2等对比方法的性能水平。
关键参与者与案例研究
此次发布主要出自苹果机器学习研究团队,由Maxime Oquab和Timothée Darcet(两人也曾参与DINOv2项目)等研究人员主导。该项目建立在苹果此前在自监督学习和视觉Transformer方面的研究基础之上。
竞争产品与方法:
| 组织 | 模型 | 方法 | 开源? | 关键差异化优势 |
|---|---|---|---|---|
| 苹果 | AIMv2 | 自回归下一个图像块 | 是(代码+权重) | 简洁性;无需掩码策略 |
| Meta | DINOv2 | 自蒸馏 + iBot | 是 | 密集任务上表现最佳;特征质量强 |
| Google | ViT + MAE | 掩码自编码器 | 是 | 出色的样本效率;适用于小数据量 |
| OpenAI | CLIP | 对比学习(图像-文本) | 否(权重可用) | 零样本能力;多模态 |
| 微软 | BEiT-3 | 掩码图像+文本建模 | 是 | 统一的视觉-语言预训练 |
案例研究:Meta的DINOv2
Meta于2023年发布的DINOv2,通过将自蒸馏与掩码图像建模(iBot)相结合,为自监督视觉模型树立了新标杆。其11亿参数的ViT-g模型在1.42亿精选图像上训练,实现了88.5%的ImageNet Top-1准确率。DINOv2的特征在深度估计和语义分割等密集预测任务上表现尤为出色,往往超越有监督模型。AIMv2的88.2%准确率与之接近但略逊一筹,且尚不清楚