Meta SAM 2 重新定义实时视频分割：AI News 深度解析

Meta AI 正式发布 Segment Anything Model 2（SAM 2），这是一个面向图像与视频的实时、交互式分割统一框架。在初代 SAM 基于提示词分割的基础上，SAM 2 引入记忆机制与流式架构，能够按序处理视频帧并保持时间连贯性。该模型在 DAVIS 2017、YouTube-VOS 等多个视频分割基准上取得最先进结果，同时在图像任务上持平或超越 SAM 1。关键的是，Meta 已将完整代码库、预训练权重以及包含 51,000 个视频的新数据集 SA-V 以 Apache 2.0 许可证开源，供研究与商业用途免费使用。GitHub 仓库上线后迅速获得超过 19,000 颗星标。

技术深度解析

SAM 2 的核心创新在于其统一架构，将图像分割视为单帧视频分割的特例。模型由三个主要组件构成：

1. 图像编码器：基于 Vision Transformer（ViT）骨干网络（ViT-B、ViT-L 或 ViT-H），提取每帧特征。这与 SAM 1 的编码器完全相同，确保向后兼容。
2. 记忆注意力模块：一种新型 Transformer 模块，接收当前帧特征、前一帧预测结果以及一个存储过往帧的记忆库，实现跨时间维度的目标掩码传播。记忆库最多可存储 64 帧的压缩特征向量。
3. 提示编码器与掩码解码器：接受点、框或掩码提示，解码最终分割掩码。对于视频，提示可应用于任意帧，并自动向前后传播。

该架构以流式方式处理视频：对于每一新帧，编码器提取特征，记忆注意力模块查询记忆库，解码器生成掩码。这避免了将所有帧存储在内存中，从而在消费级 GPU 上实现实时处理。

关键工程细节：
- 记忆库压缩：使用轻量级 MLP 将特征维度从 256 降至 64，使得在不爆炸内存的情况下存储多达 64 帧。
- 遮挡处理：模型为每个像素输出“遮挡分数”，指示不确定性。若像素被遮挡，模型可向用户请求新提示。
- 训练数据：SA-V 数据集包含 51,000 个视频，超过 600,000 个手动标注掩码，覆盖 35 个物体类别。这是此前任何视频分割数据集的 10 倍以上。

基准性能：
| 模型 | DAVIS 2017 (J&F) | YouTube-VOS (J&F) | Image MIOU (COCO) | 推理速度 (FPS, 1080p) |
|---|---|---|---|---|
| SAM 2 (ViT-H) | 88.2 | 86.4 | 82.1 | 28 |
| SAM 1 (ViT-H) | 72.3 | 68.1 | 81.9 | 30 |
| XMem (SOTA 视频) | 85.6 | 84.2 | N/A | 15 |
| Cutie (SOTA 视频) | 86.1 | 85.0 | N/A | 18 |

数据要点： SAM 2 在 DAVIS 2017 上相比 SAM 1 提升 15 个百分点，同时保持近乎相同的图像性能与推理速度。与 XMem、Cutie 等专用视频分割模型相比，SAM 2 既更准确又更快，充分展现了统一架构的威力。

GitHub 上的开源代码库（facebookresearch/sam2）包含：
- 完整的训练与推理脚本
- ViT-B、ViT-L、ViT-H 的预训练权重
- 用于交互式演示的 Jupyter Notebook
- 用于快速测试的 Gradio Web 应用

关键参与者与案例研究

Meta AI（由 Alexander Kirillov、Nikhila Ravi 及其团队领导）是主要开发者。这延续了 Meta 开源基础模型（SAM 1、DINOv2、Llama）以建立生态系统主导地位的策略。SAM 2 已被集成到 Meta 内部产品中，如 Instagram Reels 编辑与 Facebook 视频审核。

竞品对比：
| 产品/模型 | 公司 | 方法 | 优势 | 劣势 |
|---|---|---|---|---|
| SAM 2 | Meta | 统一图像/视频，记忆注意力 | 最佳精度，实时，开源 | 需要 GPU，记忆库限制长视频 |
| XMem | Oxford VGG | 循环记忆网络 | 长视频表现强劲 | 速度较慢，不支持图像 |
| Cutie | KAIST | 物体级记忆 | 适合多目标跟踪 | 训练复杂，未开源 |
| MobileSAM | 社区 | 蒸馏版 SAM 用于移动端 | 可在手机上运行 | 精度较低，不支持视频 |
| Grounding DINO + SAM | IDEA Research | 文本提示分割 | 零样本文本提示 | 两阶段，速度较慢 |

数据要点： SAM 2 的主要优势在于其统一性——一个模型同时处理图像与视频——加上开源可用性。竞品要么缺乏视频支持（MobileSAM），要么需要为图像和视频分别使用不同模型（XMem、Cutie）。

案例研究：Adobe 已宣布将 SAM 2 集成到 Premiere Pro 的自动遮罩功能中，允许编辑者通过单次点击在时间轴上选择物体。早期 Beta 测试者报告旋转描摹任务速度提升 5 倍。

案例研究：Waymo 正在评估 SAM 2 用于自动驾驶管线中的实时行人及车辆跟踪。初步测试显示，与之前的定制模型相比，多目标跟踪准确率（MOTA）提升 12%，且延迟相近。

案例研究：Butterfly Network（医疗超声）正在使用 SAM 2 对实时视频流中的胎儿解剖结构进行分割。该模型的遮挡处理能力在处理探头移动与胎儿运动时尤为宝贵。

行业影响与市场动态

SAM 2 的发布正在从三个关键方面重塑计算机视觉市场：

1. 视频分割的民主化：此前，视频分割要么需要昂贵的云 API（如 Google Cloud Video Intelligence），要么需要定制训练模型。SAM 2 提供了免费、高质量的替代方案。

时间归档

延伸阅读

常见问题

GitHub 热点“Meta's SAM 2 Redefines Real-Time Video Segmentation: An AI News Deep Dive”主要讲了什么？

Meta AI has released the Segment Anything Model 2 (SAM 2), a unified framework for real-time, interactive segmentation of both images and videos. Building on the original SAM's pro…

这个 GitHub 项目在“how to install SAM 2 on Windows”上为什么会引发关注？

SAM 2's core innovation is a unified architecture that treats image segmentation as a special case of video segmentation with a single frame. The model consists of three main components: 1. Image Encoder: A Vision Transf…

从“SAM 2 vs SAM 1 benchmark comparison”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 19235，近一日增长约为 301，这说明它在开源社区具有较强讨论度和扩散能力。