技术深度解析
Deformable DETR的精妙之处在于,它认识到标准Transformer中的多头注意力机制与图像的空间结构存在根本性错位。在NLP中,每个token都可能与所有其他token相关。但在目标检测中,代表潜在目标的查询只需关注与该目标相关的图像区域——其余都是噪声。
可变形注意力机制
可变形注意力模块接收一个查询向量q、一个参考点p(特征图上的二维坐标)以及一组从q学习到的K个采样偏移量Δp_k。然后,它通过双线性插值在位置p + Δp_k处采样特征,并计算q对每个采样特征的注意力权重A_k。输出是加权和:
DeformAttn(q, p, x) = Σ_k A_k · x(p + Δp_k)
这与标准注意力截然不同。标准注意力需要计算q与每个空间位置的点积(每个查询的复杂度为O(HW)),而可变形注意力仅计算K个加权样本(通常K=4或8)。偏移量Δp_k通过一个小型子网络进行端到端学习,使模型能够自适应地聚焦于目标部件、边界或上下文区域。
多尺度架构
第二个关键创新是多尺度可变形注意力。模型从骨干网络的不同阶段(例如ResNet的C3、C4、C5)提取特征图,并将其投影到统一的通道维度。每个查询可以同时从这些尺度中的任何一个进行采样。这直接解决了DETR的小目标问题:小目标仅在高分辨率(早期)特征图中可见,而大目标则受益于语义丰富的(后期)特征图。模型会自主学习每个查询应关注哪个尺度。
编码器-解码器设计
编码器使用可变形自注意力处理多尺度特征图,其中每个像素关注跨尺度的K个采样点。解码器使用可变形交叉注意力:目标查询关注其预测参考点周围的K个采样点。参考点本身会进行迭代优化——模型预测偏移量以逐层调整它们,类似于迭代边界框优化。
收敛速度
收敛速度的提升是戏剧性的。原始DETR在COCO上需要500个epoch,并依赖辅助损失和学习率调度。Deformable DETR在50个epoch内收敛——减少了10倍——同时获得了更高的AP(43.8对比DETR-DC5的42.0)。原因有二:(1)可变形注意力提供了更强的空间先验,因此模型无需浪费容量学习“目标是局部的”这一常识;(2)多尺度特征使模型能立即访问小目标。
基准性能
| 模型 | 骨干网络 | Epochs | AP | AP_50 | AP_75 | AP_S | AP_M | AP_L | 参数量 |
|---|---|---|---|---|---|---|---|---|---|
| DETR | ResNet-50 | 500 | 42.0 | 62.4 | 44.2 | 20.5 | 45.8 | 61.1 | 41M |
| Deformable DETR | ResNet-50 | 50 | 43.8 | 62.6 | 47.7 | 26.4 | 47.1 | 58.0 | 40M |
| Deformable DETR (3x) | ResNet-50 | 150 | 46.9 | 65.7 | 51.0 | 29.6 | 50.1 | 61.6 | 40M |
| Faster R-CNN FPN | ResNet-101 | 12 | 42.0 | 62.5 | 45.9 | 25.2 | 45.6 | 55.2 | 60M |
数据要点: Deformable DETR在比DETR少10倍的epoch数下,达到了与Faster R-CNN相当或更优的精度。小目标AP(AP_S)从20.5跃升至26.4——相对提升29%——证明多尺度可变形注意力直接解决了DETR的致命弱点。
实现细节
官方实现已在GitHub上开源,仓库地址为`fundamentalvision/deformable-detr`。它基于PyTorch构建,并使用自定义CUDA内核实现可变形注意力操作,这是其效率的关键。该仓库拥有约3950颗星,并持续维护中。可变形注意力内核本身已被提取为独立库(`mmcv/ops/deform_attention`),由OpenMMLab使用。
关键参与者与案例研究
Deformable DETR由Xizhou Zhu、Weijie Su、Lewei Lu、Bin Li、Xiaogang Wang和Jifeng Dai领导的研究团队开发。该团队来自商汤科技研究院、中国科学院大学和香港中文大学。商汤科技作为中国领先的AI公司之一,在计算机视觉研究方面有着深厚积累——其2017年提出的可变形卷积网络(DCN)正是这一想法的前身。
DETR家族树
Deformable DETR的影响力最好通过它所催生的模型来理解:
| 模型 | 年份 | 关键创新 | 基于 | COCO AP |
|---|---|---|---|---|
| DETR | 2020 | 首个端到端检测器 | — | 42.0 |
| Deformable DETR | 2020 | 可变形注意力、多尺度 | DETR | 43.8 |
| DN-DETR | 2022 | 去噪训练 | Deformable DETR | 48.6 |
| DINO | 2022 | 对比去噪、混合查询选择 | DN-DETR | 49.0 |
| Group DETR | 2022 | 分组一对多分配 | Deformable DETR | — |
数据要点: 每一个