Meta推出Segment Anything模型:以基础模型范式重塑计算机视觉

GitHub April 2026
⭐ 53963
来源:GitHub归档:April 2026
Meta AI发布的Segment Anything Model(SAM)标志着计算机视觉领域的范式转变。它从特定任务模型演进为单一、可提示的通用分割基础模型,通过在海量掩码数据上训练,实现了对任意图像中物体的交互式零样本分割,极大降低了高级视觉应用的门槛。

Meta AI发布的Segment Anything Model(SAM)是计算机视觉演进历程中的一个关键里程碑,它开创了一个新类别:分割基础模型。与传统针对特定物体类别训练的模型不同,SAM被设计成一个可提示的系统,能够根据点、框或粗略掩码等交互式提示,分割图像中几乎任何物体。这一能力源于其创新的三组件架构——一个重型的图像编码器、一个灵活的提示编码器和一个轻量级的掩码解码器——以及至关重要的、在SA-1B数据集上的训练。该数据集专为此项目构建,包含超过1100万张经授权且保护隐私的图像,并标注了11亿个高质量分割掩码,规模空前。SAM的发布不仅是一个技术突破,更是一种方法论的转变,它将自然语言处理中成功的基础模型理念引入视觉领域,预示着未来视觉系统可能像大语言模型处理文本一样,通过提示灵活应对多样化的分割任务。其开源策略迅速催生了一个活跃的生态系统,从移动端优化到与检测模型结合实现文本驱动分割,衍生应用层出不穷。这降低了研究人员和开发者应用先进分割技术的门槛,为从增强现实、内容审核到机器人感知等广泛领域提供了强大的底层工具。

技术深度解析

SAM的核心创新在于其架构设计和以数据为中心的方法。该模型采用了一个精心设计的流程,将计算密集型的图像理解与快速、交互式的掩码生成分离开来。

三支柱架构:
1. 图像编码器: 一个使用掩码自编码(MAE)预训练的Vision Transformer(ViT),通常是拥有6.32亿参数的ViT-H/16模型。这个主干网络一次性处理整张图像,生成一个密集的高维嵌入(64x64特征图)。这是计算瓶颈所在,但每张图像仅需执行一次,与提示数量无关。
2. 提示编码器: 一个轻量级网络,用于编码各种类型的用户输入(提示)。对于稀疏提示(点、框),它使用位置编码结合针对不同提示类型(例如,前景/背景点)学习到的嵌入。对于密集提示(掩码),它使用卷积嵌入。一个关键的设计选择是包含一个“模糊”提示状态,允许模型在单个点存在歧义时输出多个有效掩码(例如,衬衫上的一个点可能意味着衬衫、人或纽扣)。
3. 掩码解码器: 一个改进的Transformer解码器,能高效地将图像嵌入和提示嵌入映射到输出掩码。它首先根据提示计算一个动态的掩码预测头,然后对掩码进行上采样,并使用卷积网络进行细化。关键在于,其设计运行时间在数十毫秒内,可实现实时交互。

训练方法同样至关重要。模型在SA-1B数据集上使用模拟交互过程进行训练。在每个训练步骤中,从数据集中选择一个掩码,从该掩码中随机模拟一个提示(如点或框),然后训练模型根据提示和图像重建掩码。这教会了模型提示与分割结果之间的关联。

性能与基准测试:
虽然SAM的零样本性能令人印象深刻,但将其与专用模型进行比较具有启发性。下表显示了其在经典分割基准测试上,采用零样本协议(即SAM未在目标数据集上微调)的性能。

| 模型 / 方法 | 训练数据 | COCO mIoU (零样本) | LVIS mAP (零样本) | 推理速度 (ms) |
|---|---|---|---|---|
| SAM (ViT-H) | SA-1B (10亿掩码) | 46.6 | 41.1 | ~50 |
| RITM (交互式) | COCO+LVIS+更多 | 48.2* | 42.5* | ~100* |
| Mask R-CNN (专用) | COCO | 37.9 | 31.5 | ~60 |
| *专用模型平均* | *任务特定* | *~55-60* | *~45-50* | *各异* |
*注:RITM是最先进的交互式模型;* 表示用户交互修正*后*的性能。** 表示在未训练过的数据集(LVIS)上评估时的性能,模拟零样本场景。*

数据要点: SAM的零样本性能非常接近经过用户修正后的专用交互式模型,并且在应用于从未见过的数据集时,显著优于专用模型(Mask R-CNN)。然而,它仍然落后于在特定目标数据集上专门训练和微调的模型。权衡是清晰的:SAM以略微牺牲峰值精度为代价,提供了无与伦比的灵活性和零样本能力,使其成为原型设计、处理多样化对象的应用或作为强大标注工具的理想选择。

除了核心的 `facebookresearch/segment-anything` 代码库,其生态系统已迅速扩展。值得注意的衍生项目包括 `MobileSAM`,它将ViT-H图像编码器蒸馏到TinyViT模型中,体积减小了60倍,编码速度提升了40倍,同时保留了大部分性能。`segment-anything-2` 代码库探索了下一代改进。`GroundingDINO` + `SAM` 组合(通常称为 `Grounded-SAM`)通过使用检测模型为SAM生成框提示,实现了文本提示分割,有效地闭环了从文本到掩码的能力。

关键参与者与案例研究

Meta AI无疑是SAM背后的先驱和主要推动者。由Alexander Kirillov、Eric Mintun等人领导的研究团队,执行了之前在NLP领域见过的经典“基础模型”策略:大规模数据整理、可扩展的模型架构以及开源发布以催化生态系统。他们的战略目标似乎是建立视觉理解的决定性基础设施层,这与Meta在元宇宙、AR/VR和内容审核方面的更广泛雄心相符。

然而,SAM已引发行业内的竞争反应并激励了新创业项目:

* NVIDIA: 在其 `Picasso` 生成式AI云服务和 `CV-CUDA` 计算机视觉库中利用了SAM,并为其硬件进行了优化。他们还将类似SAM的提示功能集成到用于3D内容创作的 `Omniverse` 平台中。
* 初创公司与工具: 数十家初创公司基于SAM进行构建。`Roboflow` 将SAM集成到其

更多来自 GitHub

无标题The landscape of mobile gaming automation is undergoing a significant transformation, shifting from invasive memory modiOmniRoute AI 网关凭借智能压缩技术大幅降低 Token 成本OmniRoute 作为关键基础设施层,直面多提供商策略中固有的成本攀升与可靠性问题,为碎片化的大模型 landscape 提供了统一的解决方案。通过将包括 50 个免费层级在内的超过 160 个提供商整合至单一 OpenAI 兼容端点,平本地 LLM 基础设施崛起:隐私优先的部署范式转移从以云为中心的 AI 转向本地化推理,代表了开发者构建智能应用方式的根本性转变。`awesome-local-llm` 仓库成为这一运动的关键枢纽,聚合了在消费级硬件上部署大语言模型所需的碎片化工具。这个集合不仅仅是一个目录;它反映了一个成查看来源专题页GitHub 已收录 2301 篇文章

时间归档

April 20263042 篇已发布文章

延伸阅读

Meta V-JEPA:预测视频表征如何颠覆AI对动态世界的理解Meta的V-JEPA标志着AI从视频中学习方式的范式转变。它不再重建缺失像素,而是预测视频片段的抽象表征,这种自监督方法旨在构建更高效、更具语义感知的动态世界模型。本文剖析V-JEPA架构能否兑现其可扩展、类人视频理解的承诺。SAM3 邂逅 ComfyUI:可视化工作流如何将先进图像分割技术民主化Meta 的 Segment Anything Model 3 (SAM3) 通过 'yolain/comfyui-easy-sam3' 自定义节点包集成至 ComfyUI,标志着尖端计算机视觉技术的一次重大民主化。此次融合将 SAM3 基Automating Grind: How Computer Vision Powers Modern Mobile Game AssistantsMobile gaming automation is evolving from memory hacking to sophisticated computer vision. MaaAssistantArknights leads tAITemplate:Meta 跨平台 GPU 推理优化的秘密武器Meta 开源了 AITemplate,这是一个 Python 框架,能将神经网络模型编译为针对 NVIDIA 和 AMD GPU 上 FP16 推理优化的专用 CUDA/HIP C++ 代码。通过基于模板的代码生成和激进的算子融合,该工具

常见问题

GitHub 热点“Meta's Segment Anything Model Redefines Computer Vision with Foundation Model Approach”主要讲了什么?

The release of the Segment Anything Model (SAM) by Meta AI marks a pivotal moment in the evolution of computer vision, establishing a new category: the segmentation foundation mode…

这个 GitHub 项目在“How does SAM compare to Photoshop's Object Selection tool?”上为什么会引发关注?

At its heart, SAM's innovation is architectural and data-centric. The model employs a meticulously designed pipeline that separates computation-heavy image understanding from fast, interactive mask generation. The Three-…

从“Can Segment Anything Model be used for video object tracking?”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 53963,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。