Grounding DINO：开放集目标检测如何重塑计算机视觉格局

2026年4月17日 12:30 AINews GitHub April 2026

⭐ 10015

来源：GitHub 归档：April 2026

Grounding DINO 标志着计算机视觉领域的范式转变，它突破了传统检测模型仅限于预定义类别的封闭集局限，实现了通过自然语言描述识别几乎任意物体的开放集能力。该模型将强大的 DINO 检测器与基于语言的接地预训练相结合，实现了对新物体的零样本检测，从根本上拓展了视觉系统的实用边界。

Grounding DINO 的诞生是计算机视觉领域一项关键性突破，它直指传统目标检测器长期存在的根本性局限：即模型只能识别训练时见过的固定物体类别。该模型的核心创新在于其精妙的跨模态融合架构，它能够将来自图像主干网络的视觉特征与来自语言模型的文本嵌入进行深度对齐。正是这种能力，使得系统能够根据自由形式的文本查询（例如“停在自行车架旁的红色跑车”）来检测物体，而无需在训练阶段见过这些具体的类别或描述。

其技术路径建立在 DINO（采用改进去噪锚框的 DETR）检测器之上，该检测器以其端到端的 Transformer 架构和强大的性能而闻名。Grounding DINO 在此基础上，通过引入语言引导的查询生成和跨模态特征增强模块，构建了一个能够理解语言并据此在图像中定位的通用检测框架。这不仅在学术基准测试上取得了零样本检测的领先性能，更重要的是，它为现实世界中无限开放、动态变化的视觉理解任务提供了可行的技术方案，极大地扩展了计算机视觉在机器人、内容审核、自动驾驶、智能交互等领域的应用潜力。

技术深度解析

Grounding DINO 的架构是一个精心设计的流程，旨在弥合视觉与语言之间的模态鸿沟。它始于一个双编码器设置：一个 Swin Transformer 或 ConvNeXt 主干网络用于提取分层的图像特征，同时一个预训练的语言模型（如 BERT）处理输入的文本查询。其核心创新在于 特征增强器 和 语言引导查询选择 模块。

特征增强器在多个尺度上进行跨模态融合。它采用了一种 双向交叉注意力 机制，让图像特征关注文本特征，反之亦然，从而创建出一种统一的表征，使得视觉概念在语义上根植于语言。这对于将诸如“交通工具”这样的抽象文本描述与多样化的视觉实例（汽车、卡车、自行车）对齐至关重要。

语言引导查询选择是实现开放集能力的关键。与标准基于 DETR 的模型使用固定数量的物体查询不同，Grounding DINO 根据输入文本动态生成查询。对于查询中的每个名词短语，模型会预测一组可能包含该物体的候选区域。这些具有文本感知能力的查询随后被送入解码器。解码器是另一个 Transformer，它通过自注意力机制以及与增强后图像特征的交叉注意力来优化这些查询，最终为匹配文本描述的物体生成边界框和置信度分数。

一个关键的技术细节在于其训练方案。该模型首先在 GoldG（一个经过筛选的网络数据子集）和 Object365 等海量图文对数据集上进行 接地预训练。其训练目标是预测一个图像区域是否被一段文本片段准确描述，从而迫使模型学习细粒度的对齐关系。随后，模型在 COCO 等标准检测数据集上进行微调，但将文本标签用作提示，教导模型在查询“人”或“狗”等词语时输出对应的边界框。

性能基准测试揭示了其优势。在 COCO 零样本迁移基准测试中（模型必须检测训练中未见过的类别），Grounding DINO 显著超越了早期的开放词汇检测器。

| 模型 | 主干网络 | COCO 零样本 AP（新类别） | LVIS minival AP（稀有类别） | 推理速度 (FPS) |
|---|---|---|---|---|
| Grounding DINO-B | Swin-T | 27.5 | 22.5 | 28 |
| Grounding DINO-L | Swin-L | 34.5 | 29.4 | 12 |
| OWL-ViT (基于 CLIP) | ViT-B/32 | 18.6 | 16.1 | 45 |
| GLIP (Li et al.) | Swin-L | 26.9 | 24.9 | 10 |
| Detic (Zhou et al.) | Swin-B | 27.8 (使用图像标签) | 27.8 | 15 |

*数据洞察：* Grounding DINO-L 在新类别上实现了最先进的零样本检测精度，但这是以计算成本为代价的。其 AP 值几乎是更简单的 OWL-ViT 的两倍，这证明了其深度融合架构的价值。精度（AP）与速度（FPS）之间的权衡是显而易见的，不同规模的模型适用于不同的应用延迟要求。

官方 GitHub 仓库 (`IDEA-Research/GroundingDINO`) 提供了一个文档齐全的代码库，包含预训练模型、演示脚本和微调指南。其星标数迅速突破 10,000，反映了开发者对这款实用、开源的开放集检测解决方案的浓厚兴趣。近期的社区贡献包括视频目标追踪的扩展，以及与 Segment Anything 模型集成以实现开放词汇实例分割。

关键参与者与案例研究

Grounding DINO 的开发由 IDEA（国际数字经济研究院） 的研究人员主导，刘世龙及其他贡献者扮演了核心角色。他们的工作处于两个活跃研究脉络的交汇点：一是由 Facebook AI Research (FAIR) 开创的 DETR/DINO 系列检测 Transformer，二是由微软（GLIP）、谷歌（OWL-ViT）和 OpenAI（CLIP）等团队推进的接地视觉-语言预训练范式。

IDEA 的战略似乎聚焦于为感知任务创建强大、开源的基础模型。Grounding DINO 与他们的其他发布成果形成了互补，例如用于分割的 Segment Anything (SAM) 和用于机器人的 ChatGPT for Robotics 框架。通过提供高性能的开放集检测器，他们正在为下一代 AI 应用构建一个全面的工具箱，其目标很可能是在学术界和工业界都树立起标准。

竞争性的方法提供了不同的权衡取舍。谷歌的 OWL-ViT 和 OWLv2 建立在 CLIP 视觉-语言模型之上。它们速度极快且结构简单，将检测问题框定为图像块与文本嵌入之间的匹配问题。然而，这可能会限制其在复杂查询上的定位精度和性能。英伟达 在开放词汇检测方面的研究通常侧重于扩展数据和模型规模，例如 OV-DETR 等工作，强调大规模训练的重要性。

时间归档

常见问题

GitHub 热点“Grounding DINO: How Open-Set Object Detection Is Redefining Computer Vision”主要讲了什么？

Grounding DINO emerges as a pivotal advancement in computer vision, specifically addressing the long-standing limitation of traditional object detectors: their confinement to a fix…

这个 GitHub 项目在“Grounding DINO vs OWL-ViT performance benchmark”上为什么会引发关注？

Grounding DINO's architecture is a carefully engineered pipeline designed to bridge the modality gap between vision and language. It begins with a dual-encoder setup: a Swin Transformer or ConvNeXt backbone extracts hier…

从“How to fine-tune Grounding DINO for custom objects”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 10015，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。

Grounding DINO：开放集目标检测如何重塑计算机视觉格局

技术深度解析

关键参与者与案例研究

更多来自 GitHub

时间归档

延伸阅读

常见问题