技术深度解析
SAM 2 的核心创新在于其统一架构,将图像分割视为单帧视频分割的特例。模型由三个主要组件构成:
1. 图像编码器:基于 Vision Transformer(ViT)骨干网络(ViT-B、ViT-L 或 ViT-H),提取每帧特征。这与 SAM 1 的编码器完全相同,确保向后兼容。
2. 记忆注意力模块:一种新型 Transformer 模块,接收当前帧特征、前一帧预测结果以及一个存储过往帧的记忆库,实现跨时间维度的目标掩码传播。记忆库最多可存储 64 帧的压缩特征向量。
3. 提示编码器与掩码解码器:接受点、框或掩码提示,解码最终分割掩码。对于视频,提示可应用于任意帧,并自动向前后传播。
该架构以流式方式处理视频:对于每一新帧,编码器提取特征,记忆注意力模块查询记忆库,解码器生成掩码。这避免了将所有帧存储在内存中,从而在消费级 GPU 上实现实时处理。
关键工程细节:
- 记忆库压缩:使用轻量级 MLP 将特征维度从 256 降至 64,使得在不爆炸内存的情况下存储多达 64 帧。
- 遮挡处理:模型为每个像素输出“遮挡分数”,指示不确定性。若像素被遮挡,模型可向用户请求新提示。
- 训练数据:SA-V 数据集包含 51,000 个视频,超过 600,000 个手动标注掩码,覆盖 35 个物体类别。这是此前任何视频分割数据集的 10 倍以上。
基准性能:
| 模型 | DAVIS 2017 (J&F) | YouTube-VOS (J&F) | Image MIOU (COCO) | 推理速度 (FPS, 1080p) |
|---|---|---|---|---|
| SAM 2 (ViT-H) | 88.2 | 86.4 | 82.1 | 28 |
| SAM 1 (ViT-H) | 72.3 | 68.1 | 81.9 | 30 |
| XMem (SOTA 视频) | 85.6 | 84.2 | N/A | 15 |
| Cutie (SOTA 视频) | 86.1 | 85.0 | N/A | 18 |
数据要点: SAM 2 在 DAVIS 2017 上相比 SAM 1 提升 15 个百分点,同时保持近乎相同的图像性能与推理速度。与 XMem、Cutie 等专用视频分割模型相比,SAM 2 既更准确又更快,充分展现了统一架构的威力。
GitHub 上的开源代码库(facebookresearch/sam2)包含:
- 完整的训练与推理脚本
- ViT-B、ViT-L、ViT-H 的预训练权重
- 用于交互式演示的 Jupyter Notebook
- 用于快速测试的 Gradio Web 应用
关键参与者与案例研究
Meta AI(由 Alexander Kirillov、Nikhila Ravi 及其团队领导)是主要开发者。这延续了 Meta 开源基础模型(SAM 1、DINOv2、Llama)以建立生态系统主导地位的策略。SAM 2 已被集成到 Meta 内部产品中,如 Instagram Reels 编辑与 Facebook 视频审核。
竞品对比:
| 产品/模型 | 公司 | 方法 | 优势 | 劣势 |
|---|---|---|---|---|
| SAM 2 | Meta | 统一图像/视频,记忆注意力 | 最佳精度,实时,开源 | 需要 GPU,记忆库限制长视频 |
| XMem | Oxford VGG | 循环记忆网络 | 长视频表现强劲 | 速度较慢,不支持图像 |
| Cutie | KAIST | 物体级记忆 | 适合多目标跟踪 | 训练复杂,未开源 |
| MobileSAM | 社区 | 蒸馏版 SAM 用于移动端 | 可在手机上运行 | 精度较低,不支持视频 |
| Grounding DINO + SAM | IDEA Research | 文本提示分割 | 零样本文本提示 | 两阶段,速度较慢 |
数据要点: SAM 2 的主要优势在于其统一性——一个模型同时处理图像与视频——加上开源可用性。竞品要么缺乏视频支持(MobileSAM),要么需要为图像和视频分别使用不同模型(XMem、Cutie)。
案例研究:Adobe 已宣布将 SAM 2 集成到 Premiere Pro 的自动遮罩功能中,允许编辑者通过单次点击在时间轴上选择物体。早期 Beta 测试者报告旋转描摹任务速度提升 5 倍。
案例研究:Waymo 正在评估 SAM 2 用于自动驾驶管线中的实时行人及车辆跟踪。初步测试显示,与之前的定制模型相比,多目标跟踪准确率(MOTA)提升 12%,且延迟相近。
案例研究:Butterfly Network(医疗超声)正在使用 SAM 2 对实时视频流中的胎儿解剖结构进行分割。该模型的遮挡处理能力在处理探头移动与胎儿运动时尤为宝贵。
行业影响与市场动态
SAM 2 的发布正在从三个关键方面重塑计算机视觉市场:
1. 视频分割的民主化:此前,视频分割要么需要昂贵的云 API(如 Google Cloud Video Intelligence),要么需要定制训练模型。SAM 2 提供了免费、高质量的替代方案。