Meta推出Segment Anything模型:以基础模型范式重塑计算机视觉

GitHub April 2026
⭐ 53963
来源:GitHubMeta AI归档:April 2026
Meta AI发布的Segment Anything Model(SAM)标志着计算机视觉领域的范式转变。它从特定任务模型演进为单一、可提示的通用分割基础模型,通过在海量掩码数据上训练,实现了对任意图像中物体的交互式零样本分割,极大降低了高级视觉应用的门槛。

Meta AI发布的Segment Anything Model(SAM)是计算机视觉演进历程中的一个关键里程碑,它开创了一个新类别:分割基础模型。与传统针对特定物体类别训练的模型不同,SAM被设计成一个可提示的系统,能够根据点、框或粗略掩码等交互式提示,分割图像中几乎任何物体。这一能力源于其创新的三组件架构——一个重型的图像编码器、一个灵活的提示编码器和一个轻量级的掩码解码器——以及至关重要的、在SA-1B数据集上的训练。该数据集专为此项目构建,包含超过1100万张经授权且保护隐私的图像,并标注了11亿个高质量分割掩码,规模空前。SAM的发布不仅是一个技术突破,更是一种方法论的转变,它将自然语言处理中成功的基础模型理念引入视觉领域,预示着未来视觉系统可能像大语言模型处理文本一样,通过提示灵活应对多样化的分割任务。其开源策略迅速催生了一个活跃的生态系统,从移动端优化到与检测模型结合实现文本驱动分割,衍生应用层出不穷。这降低了研究人员和开发者应用先进分割技术的门槛,为从增强现实、内容审核到机器人感知等广泛领域提供了强大的底层工具。

技术深度解析

SAM的核心创新在于其架构设计和以数据为中心的方法。该模型采用了一个精心设计的流程,将计算密集型的图像理解与快速、交互式的掩码生成分离开来。

三支柱架构:
1. 图像编码器: 一个使用掩码自编码(MAE)预训练的Vision Transformer(ViT),通常是拥有6.32亿参数的ViT-H/16模型。这个主干网络一次性处理整张图像,生成一个密集的高维嵌入(64x64特征图)。这是计算瓶颈所在,但每张图像仅需执行一次,与提示数量无关。
2. 提示编码器: 一个轻量级网络,用于编码各种类型的用户输入(提示)。对于稀疏提示(点、框),它使用位置编码结合针对不同提示类型(例如,前景/背景点)学习到的嵌入。对于密集提示(掩码),它使用卷积嵌入。一个关键的设计选择是包含一个“模糊”提示状态,允许模型在单个点存在歧义时输出多个有效掩码(例如,衬衫上的一个点可能意味着衬衫、人或纽扣)。
3. 掩码解码器: 一个改进的Transformer解码器,能高效地将图像嵌入和提示嵌入映射到输出掩码。它首先根据提示计算一个动态的掩码预测头,然后对掩码进行上采样,并使用卷积网络进行细化。关键在于,其设计运行时间在数十毫秒内,可实现实时交互。

训练方法同样至关重要。模型在SA-1B数据集上使用模拟交互过程进行训练。在每个训练步骤中,从数据集中选择一个掩码,从该掩码中随机模拟一个提示(如点或框),然后训练模型根据提示和图像重建掩码。这教会了模型提示与分割结果之间的关联。

性能与基准测试:
虽然SAM的零样本性能令人印象深刻,但将其与专用模型进行比较具有启发性。下表显示了其在经典分割基准测试上,采用零样本协议(即SAM未在目标数据集上微调)的性能。

| 模型 / 方法 | 训练数据 | COCO mIoU (零样本) | LVIS mAP (零样本) | 推理速度 (ms) |
|---|---|---|---|---|
| SAM (ViT-H) | SA-1B (10亿掩码) | 46.6 | 41.1 | ~50 |
| RITM (交互式) | COCO+LVIS+更多 | 48.2* | 42.5* | ~100* |
| Mask R-CNN (专用) | COCO | 37.9 | 31.5 | ~60 |
| *专用模型平均* | *任务特定* | *~55-60* | *~45-50* | *各异* |
*注:RITM是最先进的交互式模型;* 表示用户交互修正*后*的性能。** 表示在未训练过的数据集(LVIS)上评估时的性能,模拟零样本场景。*

数据要点: SAM的零样本性能非常接近经过用户修正后的专用交互式模型,并且在应用于从未见过的数据集时,显著优于专用模型(Mask R-CNN)。然而,它仍然落后于在特定目标数据集上专门训练和微调的模型。权衡是清晰的:SAM以略微牺牲峰值精度为代价,提供了无与伦比的灵活性和零样本能力,使其成为原型设计、处理多样化对象的应用或作为强大标注工具的理想选择。

除了核心的 `facebookresearch/segment-anything` 代码库,其生态系统已迅速扩展。值得注意的衍生项目包括 `MobileSAM`,它将ViT-H图像编码器蒸馏到TinyViT模型中,体积减小了60倍,编码速度提升了40倍,同时保留了大部分性能。`segment-anything-2` 代码库探索了下一代改进。`GroundingDINO` + `SAM` 组合(通常称为 `Grounded-SAM`)通过使用检测模型为SAM生成框提示,实现了文本提示分割,有效地闭环了从文本到掩码的能力。

关键参与者与案例研究

Meta AI无疑是SAM背后的先驱和主要推动者。由Alexander Kirillov、Eric Mintun等人领导的研究团队,执行了之前在NLP领域见过的经典“基础模型”策略:大规模数据整理、可扩展的模型架构以及开源发布以催化生态系统。他们的战略目标似乎是建立视觉理解的决定性基础设施层,这与Meta在元宇宙、AR/VR和内容审核方面的更广泛雄心相符。

然而,SAM已引发行业内的竞争反应并激励了新创业项目:

* NVIDIA: 在其 `Picasso` 生成式AI云服务和 `CV-CUDA` 计算机视觉库中利用了SAM,并为其硬件进行了优化。他们还将类似SAM的提示功能集成到用于3D内容创作的 `Omniverse` 平台中。
* 初创公司与工具: 数十家初创公司基于SAM进行构建。`Roboflow` 将SAM集成到其

更多来自 GitHub

Pyannote-Audio:模块化架构重塑复杂现实音频的说话人日志技术Pyannote-Audio代表了说话人日志技术的重大演进,它超越了单一的整体系统,转向一个基于神经网络的模块化工具包。该项目主要由Hervé Bredin等研究人员开发,为语音活动检测、说话人转换检测、重叠语音检测和说话人嵌入向量提取提供Grounding DINO:开放集目标检测如何重塑计算机视觉格局Grounding DINO 的诞生是计算机视觉领域一项关键性突破,它直指传统目标检测器长期存在的根本性局限:即模型只能识别训练时见过的固定物体类别。该模型的核心创新在于其精妙的跨模态融合架构,它能够将来自图像主干网络的视觉特征与来自语言模Quip协议的静默革命:解码GitHub上斩获10K星的实验性P2P网络Quip Protocol是一个正在开发去中心化网络节点实现的实验性开源项目。它被定位为点对点通信的基础层,已吸引大量开发者关注——其在GitHub上惊人的吸引力便是明证:累计收获超10,900颗星标,巅峰时期日增星标超过2,000颗。项目查看来源专题页GitHub 已收录 781 篇文章

相关专题

Meta AI12 篇相关文章

时间归档

April 20261509 篇已发布文章

延伸阅读

SAM3 邂逅 ComfyUI:可视化工作流如何将先进图像分割技术民主化Meta 的 Segment Anything Model 3 (SAM3) 通过 'yolain/comfyui-easy-sam3' 自定义节点包集成至 ComfyUI,标志着尖端计算机视觉技术的一次重大民主化。此次融合将 SAM3 基Grounding DINO:开放集目标检测如何重塑计算机视觉格局Grounding DINO 标志着计算机视觉领域的范式转变,它突破了传统检测模型仅限于预定义类别的封闭集局限,实现了通过自然语言描述识别几乎任意物体的开放集能力。该模型将强大的 DINO 检测器与基于语言的接地预训练相结合,实现了对新物体Meta Audiocraft:开源EnCodec与MusicGen,AI音乐生成走向大众化Meta推出的Audiocraft已成为AI音频与音乐生成领域的关键开源框架。它将高效的神经编解码器EnCodec与可控的Transformer模型MusicGen整合,为研究者和开发者提供了一套完整、易用的工具包,使其能够基于前沿音频合成OpenAI技能目录发布:揭秘AI编程助手的未来范式OpenAI悄然为开发者奉上一场AI提示工程大师课。Codex项目技能目录精心汇编了最大化Codex模型编程能力的技术方案。这份官方指南不仅是标准化AI编码工具应用的战略举措,更预示着人机协作编程新时代的加速到来。

常见问题

GitHub 热点“Meta's Segment Anything Model Redefines Computer Vision with Foundation Model Approach”主要讲了什么?

The release of the Segment Anything Model (SAM) by Meta AI marks a pivotal moment in the evolution of computer vision, establishing a new category: the segmentation foundation mode…

这个 GitHub 项目在“How does SAM compare to Photoshop's Object Selection tool?”上为什么会引发关注?

At its heart, SAM's innovation is architectural and data-centric. The model employs a meticulously designed pipeline that separates computation-heavy image understanding from fast, interactive mask generation. The Three-…

从“Can Segment Anything Model be used for video object tracking?”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 53963,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。