苹果AIM视觉模型:自回归图像建模或将重塑AI格局

GitHub June 2026
⭐ 1419
来源:GitHub归档:June 2026
苹果公司开源了其AIM系列视觉模型,将自回归图像建模(AIM)应用于视觉表征学习。这一研究项目已在GitHub上发布,提供AIMv1和AIMv2的代码与预训练权重,或将为视觉基础模型开辟全新范式。

苹果机器学习研究团队正式发布了其AIM(自回归图像模型)项目的代码与模型检查点,涵盖AIMv1和AIMv2两个版本。此次开源标志着对以MAE和SimMIM为代表的掩码图像建模(MIM)主流路径的重大偏离。AIM将图像块视为一个token序列,并训练Transformer按照光栅扫描顺序预测下一个图像块——这直接对应了NLP中自回归语言建模的视觉版本。项目提供了从小型到超大型多种规模的预训练Vision Transformer(ViT)骨干网络,并在图像分类、目标检测和语义分割等下游任务中展现出强劲性能。尽管此次发布主要是一项研究产物,但其技术路线与开源姿态已引发业界广泛关注。

技术深度解析

苹果的AIM项目是一次大胆的尝试,旨在将NLP中的自回归范式引入计算机视觉领域。其核心架构是标准的Vision Transformer(ViT),将图像处理为一系列不重叠的图像块序列。与BEiT或MAE采用的掩码图像建模(MIM)方法——随机掩码部分图像块并要求模型重建它们——不同,AIM训练模型按照固定的光栅扫描顺序(从左到右、从上到下)预测下一个图像块。这是一个因果预测任务:模型只能看到当前图像块左侧和上方的图像块,并必须输出一个可解码为实际像素值或该图像块离散化token的表征。

架构细节:
- 骨干网络: 标准ViT,在预训练期间应用因果注意力掩码。该掩码确保每个图像块只能关注光栅顺序中位于其之前的图像块。
- 预训练目标: 对离散化图像块token使用交叉熵损失,借助一个经过学习的dVAE分词器(类似于DALL-E的方法),将每个16×16的图像块压缩为来自8192个token词汇表的离散编码。模型预测下一个图像块的token ID。
- 模型规模: AIMv2提供ViT-S、ViT-B、ViT-L和ViT-H四种变体,参数量从2200万到6.75亿不等。最大模型(ViT-H)拥有6.75亿参数,并在苹果私有数据集的12亿张图像上完成训练。

与竞争方法的对比:

| 模型 | 预训练目标 | 参数量 | ImageNet-1K Top-1(微调后) | 训练数据 | 训练轮数 |
|---|---|---|---|---|---|
| AIMv2 ViT-H | 自回归下一个图像块 | 6.75亿 | 88.2% | 12亿私有图像 | 300 |
| MAE ViT-H | 掩码重建(75%掩码率) | 6.32亿 | 87.8% | ImageNet-1K(130万) | 1600 |
| DINOv2 ViT-g | 自蒸馏 + iBot | 11亿 | 88.5% | 1.42亿精选图像 | 500 |
| CLIP ViT-L | 对比学习(图像-文本) | 4.28亿 | 85.4%(零样本) | 4亿图像-文本对 | — |

数据要点: AIMv2 ViT-H在ImageNet上取得了具有竞争力的88.2%准确率,尽管其目标更简单且总训练轮数少于MAE。然而,它依赖一个规模大得多的私有数据集(12亿张图像 vs. MAE的130万张)。这表明自回归目标可能更“吃数据”,但每轮训练效率更高。

工程洞察:
- 因果注意力掩码在预训练期间引入了计算开销,因为模型无法使用ViT的标准双向注意力。但在微调阶段,掩码被移除,模型采用完整的双向注意力,从而能够利用全局上下文。
- dVAE分词器是一个关键组件。苹果在ImageNet上训练了一个拥有8192个编码的分词器,将每个图像块映射为一个离散token。该分词器并未开源,这意味着研究人员若不自行训练分词器,就无法完全复现预训练流程。
- 代码库使用PyTorch编写,并采用`timm`库进行模型定义。GitHub仓库(apple/ml-aim)提供了预训练权重和推理脚本,但训练代码并未完整发布——仅包含评估和微调脚本。

要点总结: AIM的技术贡献在于其简洁优雅,但对私有数据集和分词器的依赖限制了可复现性。因果预训练方法在每步计算上效率较高,但可能需要更多数据才能达到DINOv2等对比方法的性能水平。

关键参与者与案例研究

此次发布主要出自苹果机器学习研究团队,由Maxime OquabTimothée Darcet(两人也曾参与DINOv2项目)等研究人员主导。该项目建立在苹果此前在自监督学习和视觉Transformer方面的研究基础之上。

竞争产品与方法:

| 组织 | 模型 | 方法 | 开源? | 关键差异化优势 |
|---|---|---|---|---|
| 苹果 | AIMv2 | 自回归下一个图像块 | 是(代码+权重) | 简洁性;无需掩码策略 |
| Meta | DINOv2 | 自蒸馏 + iBot | 是 | 密集任务上表现最佳;特征质量强 |
| Google | ViT + MAE | 掩码自编码器 | 是 | 出色的样本效率;适用于小数据量 |
| OpenAI | CLIP | 对比学习(图像-文本) | 否(权重可用) | 零样本能力;多模态 |
| 微软 | BEiT-3 | 掩码图像+文本建模 | 是 | 统一的视觉-语言预训练 |

案例研究:Meta的DINOv2
Meta于2023年发布的DINOv2,通过将自蒸馏与掩码图像建模(iBot)相结合,为自监督视觉模型树立了新标杆。其11亿参数的ViT-g模型在1.42亿精选图像上训练,实现了88.5%的ImageNet Top-1准确率。DINOv2的特征在深度估计和语义分割等密集预测任务上表现尤为出色,往往超越有监督模型。AIMv2的88.2%准确率与之接近但略逊一筹,且尚不清楚

更多来自 GitHub

Safety Gym:OpenAI 用约束强化学习为可信 AI 立下的安全标杆OpenAI 正式发布了 Safety Gym,这是一个专为加速强化学习中安全探索研究而设计的工具包。该平台提供了一系列连续控制任务——例如机器人导航与物体推拉——这些任务融入了明确的安全约束,如碰撞规避与力限制。通过标准化评估指标并与主流克劳德宪法:Anthropic激进AI对齐蓝图的内幕Anthropic发布Claude宪法,标志着AI透明度领域的一个分水岭时刻。与大多数竞争对手使用的黑箱对齐方法不同,Anthropic公开了指导Claude决策的75多项原则。这部宪法汲取了多元来源,包括《联合国世界人权宣言》、苹果服务条Golem Network Yagna:去中心化计算的静默革命,还是过度炒作的空头承诺?Golem Network 如今以 'Yagna' 迭代版本示人,它是最早、也最具雄心的去中心化计算资源市场构建尝试之一。该项目运行在以太坊智能合约之上,允许提供方出租 CPU/GPU 算力周期,需求方则支付 GLM 代币,以完成从 CGI查看来源专题页GitHub 已收录 2329 篇文章

时间归档

June 2026271 篇已发布文章

延伸阅读

掩码自编码器重塑计算机视觉:FAIR的MAE突破深度解析FAIR提出的掩码自编码器(MAE)已成为计算机视觉领域里程碑式的自监督预训练方法。通过随机遮蔽75%的图像块并仅重建缺失像素,MAE大幅降低计算成本,同时实现顶尖的迁移学习效果。本文深入剖析其架构、基准测试结果及长远影响。Meta V-JEPA:预测视频表征如何颠覆AI对动态世界的理解Meta的V-JEPA标志着AI从视频中学习方式的范式转变。它不再重建缺失像素,而是预测视频片段的抽象表征,这种自监督方法旨在构建更高效、更具语义感知的动态世界模型。本文剖析V-JEPA架构能否兑现其可扩展、类人视频理解的承诺。Meta发布Contriever:无监督对比学习颠覆传统检索范式Meta FAIR实验室推出革命性稠密检索模型Contriever,完全无需人工标注数据训练。该模型通过在大规模无标注文本上进行对比学习,挑战了“高质量检索必须依赖昂贵标注”的传统假设,为语义搜索开辟了新路径。Meta ImageBind 开创六模态统一嵌入空间,重塑多模态AI范式Meta AI 的 ImageBind 项目实现了多模态人工智能的范式跃迁。它通过创建统一的嵌入空间,将图像、文本、音频、深度、热感和IMU数据六种模态联结起来,无需显式配对的训练数据即可实现前所未有的跨模态理解。这一突破对下一代AI应用具

常见问题

GitHub 热点“Apple's AIM Vision Models: Autoregressive Image Modeling Could Reshape AI”主要讲了什么?

Apple's Machine Learning Research team has released the code and model checkpoints for its AIM (Autoregressive Image Model) project, comprising AIMv1 and AIMv2. This open-source re…

这个 GitHub 项目在“How does AIM compare to DINOv2 for object detection?”上为什么会引发关注?

Apple's AIM project represents a bold attempt to bridge the autoregressive paradigm from NLP into computer vision. The core architecture is a standard Vision Transformer (ViT) that processes images as a sequence of non-o…

从“Can AIM be used for image generation?”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 1419,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。