Grounding DINO:开放集目标检测如何重塑计算机视觉格局

GitHub April 2026
⭐ 10015
来源:GitHub归档:April 2026
Grounding DINO 标志着计算机视觉领域的范式转变,它突破了传统检测模型仅限于预定义类别的封闭集局限,实现了通过自然语言描述识别几乎任意物体的开放集能力。该模型将强大的 DINO 检测器与基于语言的接地预训练相结合,实现了对新物体的零样本检测,从根本上拓展了视觉系统的实用边界。

Grounding DINO 的诞生是计算机视觉领域一项关键性突破,它直指传统目标检测器长期存在的根本性局限:即模型只能识别训练时见过的固定物体类别。该模型的核心创新在于其精妙的跨模态融合架构,它能够将来自图像主干网络的视觉特征与来自语言模型的文本嵌入进行深度对齐。正是这种能力,使得系统能够根据自由形式的文本查询(例如“停在自行车架旁的红色跑车”)来检测物体,而无需在训练阶段见过这些具体的类别或描述。

其技术路径建立在 DINO(采用改进去噪锚框的 DETR)检测器之上,该检测器以其端到端的 Transformer 架构和强大的性能而闻名。Grounding DINO 在此基础上,通过引入语言引导的查询生成和跨模态特征增强模块,构建了一个能够理解语言并据此在图像中定位的通用检测框架。这不仅在学术基准测试上取得了零样本检测的领先性能,更重要的是,它为现实世界中无限开放、动态变化的视觉理解任务提供了可行的技术方案,极大地扩展了计算机视觉在机器人、内容审核、自动驾驶、智能交互等领域的应用潜力。

技术深度解析

Grounding DINO 的架构是一个精心设计的流程,旨在弥合视觉与语言之间的模态鸿沟。它始于一个双编码器设置:一个 Swin Transformer 或 ConvNeXt 主干网络用于提取分层的图像特征,同时一个预训练的语言模型(如 BERT)处理输入的文本查询。其核心创新在于 特征增强器语言引导查询选择 模块。

特征增强器在多个尺度上进行跨模态融合。它采用了一种 双向交叉注意力 机制,让图像特征关注文本特征,反之亦然,从而创建出一种统一的表征,使得视觉概念在语义上根植于语言。这对于将诸如“交通工具”这样的抽象文本描述与多样化的视觉实例(汽车、卡车、自行车)对齐至关重要。

语言引导查询选择是实现开放集能力的关键。与标准基于 DETR 的模型使用固定数量的物体查询不同,Grounding DINO 根据输入文本动态生成查询。对于查询中的每个名词短语,模型会预测一组可能包含该物体的候选区域。这些具有文本感知能力的查询随后被送入解码器。解码器是另一个 Transformer,它通过自注意力机制以及与增强后图像特征的交叉注意力来优化这些查询,最终为匹配文本描述的物体生成边界框和置信度分数。

一个关键的技术细节在于其训练方案。该模型首先在 GoldG(一个经过筛选的网络数据子集)和 Object365 等海量图文对数据集上进行 接地预训练。其训练目标是预测一个图像区域是否被一段文本片段准确描述,从而迫使模型学习细粒度的对齐关系。随后,模型在 COCO 等标准检测数据集上进行微调,但将文本标签用作提示,教导模型在查询“人”或“狗”等词语时输出对应的边界框。

性能基准测试揭示了其优势。在 COCO 零样本迁移基准测试中(模型必须检测训练中未见过的类别),Grounding DINO 显著超越了早期的开放词汇检测器。

| 模型 | 主干网络 | COCO 零样本 AP(新类别) | LVIS minival AP(稀有类别) | 推理速度 (FPS) |
|---|---|---|---|---|
| Grounding DINO-B | Swin-T | 27.5 | 22.5 | 28 |
| Grounding DINO-L | Swin-L | 34.5 | 29.4 | 12 |
| OWL-ViT (基于 CLIP) | ViT-B/32 | 18.6 | 16.1 | 45 |
| GLIP (Li et al.) | Swin-L | 26.9 | 24.9 | 10 |
| Detic (Zhou et al.) | Swin-B | 27.8 (使用图像标签) | 27.8 | 15 |

*数据洞察:* Grounding DINO-L 在新类别上实现了最先进的零样本检测精度,但这是以计算成本为代价的。其 AP 值几乎是更简单的 OWL-ViT 的两倍,这证明了其深度融合架构的价值。精度(AP)与速度(FPS)之间的权衡是显而易见的,不同规模的模型适用于不同的应用延迟要求。

官方 GitHub 仓库 (`IDEA-Research/GroundingDINO`) 提供了一个文档齐全的代码库,包含预训练模型、演示脚本和微调指南。其星标数迅速突破 10,000,反映了开发者对这款实用、开源的开放集检测解决方案的浓厚兴趣。近期的社区贡献包括视频目标追踪的扩展,以及与 Segment Anything 模型集成以实现开放词汇实例分割。

关键参与者与案例研究

Grounding DINO 的开发由 IDEA(国际数字经济研究院) 的研究人员主导,刘世龙及其他贡献者扮演了核心角色。他们的工作处于两个活跃研究脉络的交汇点:一是由 Facebook AI Research (FAIR) 开创的 DETR/DINO 系列检测 Transformer,二是由微软(GLIP)、谷歌(OWL-ViT)和 OpenAI(CLIP)等团队推进的接地视觉-语言预训练范式。

IDEA 的战略似乎聚焦于为感知任务创建强大、开源的基础模型。Grounding DINO 与他们的其他发布成果形成了互补,例如用于分割的 Segment Anything (SAM) 和用于机器人的 ChatGPT for Robotics 框架。通过提供高性能的开放集检测器,他们正在为下一代 AI 应用构建一个全面的工具箱,其目标很可能是在学术界和工业界都树立起标准。

竞争性的方法提供了不同的权衡取舍。谷歌的 OWL-ViTOWLv2 建立在 CLIP 视觉-语言模型之上。它们速度极快且结构简单,将检测问题框定为图像块与文本嵌入之间的匹配问题。然而,这可能会限制其在复杂查询上的定位精度和性能。英伟达 在开放词汇检测方面的研究通常侧重于扩展数据和模型规模,例如 OV-DETR 等工作,强调大规模训练的重要性。

更多来自 GitHub

Pyannote-Audio:模块化架构重塑复杂现实音频的说话人日志技术Pyannote-Audio代表了说话人日志技术的重大演进,它超越了单一的整体系统,转向一个基于神经网络的模块化工具包。该项目主要由Hervé Bredin等研究人员开发,为语音活动检测、说话人转换检测、重叠语音检测和说话人嵌入向量提取提供Meta推出Segment Anything模型:以基础模型范式重塑计算机视觉Meta AI发布的Segment Anything Model(SAM)是计算机视觉演进历程中的一个关键里程碑,它开创了一个新类别:分割基础模型。与传统针对特定物体类别训练的模型不同,SAM被设计成一个可提示的系统,能够根据点、框或粗略掩Quip协议的静默革命:解码GitHub上斩获10K星的实验性P2P网络Quip Protocol是一个正在开发去中心化网络节点实现的实验性开源项目。它被定位为点对点通信的基础层,已吸引大量开发者关注——其在GitHub上惊人的吸引力便是明证:累计收获超10,900颗星标,巅峰时期日增星标超过2,000颗。项目查看来源专题页GitHub 已收录 781 篇文章

时间归档

April 20261509 篇已发布文章

延伸阅读

Meta推出Segment Anything模型:以基础模型范式重塑计算机视觉Meta AI发布的Segment Anything Model(SAM)标志着计算机视觉领域的范式转变。它从特定任务模型演进为单一、可提示的通用分割基础模型,通过在海量掩码数据上训练,实现了对任意图像中物体的交互式零样本分割,极大降低了高CLIP如何重塑多模态AI:OpenAI的对比学习如何引爆基础模型革命当OpenAI在2021年初发布CLIP模型时,它带来的不仅是技术突破,更是对机器理解视觉与语言关系的范式重构。通过从4亿网络图文对中学习统一语义空间,CLIP展现出前所未有的零样本泛化能力,彻底改变了多模态AI的研究轨迹。InsightFace:一个开源项目如何成为人脸分析的事实标准InsightFace已从一个GitHub小众项目,成长为全球2D与3D人脸分析的基础工具包。其全面的处理流程与开创性的ArcFace损失函数,为识别精度树立了新标杆,而其开源特性则大幅降低了技术门槛。定制化CoOp框架如何解锁多语言视觉-语言AI的全球潜能一项新的研究计划正致力于攻克全球AI部署中最顽固的瓶颈之一:计算机视觉中的语言壁垒。通过定制上下文优化(CoOp)框架并将其与多语言OpenCLIP模型集成,mp_customcoop项目旨在创造能够根据任何语言的文本提示识别图像中对象的A

常见问题

GitHub 热点“Grounding DINO: How Open-Set Object Detection Is Redefining Computer Vision”主要讲了什么?

Grounding DINO emerges as a pivotal advancement in computer vision, specifically addressing the long-standing limitation of traditional object detectors: their confinement to a fix…

这个 GitHub 项目在“Grounding DINO vs OWL-ViT performance benchmark”上为什么会引发关注?

Grounding DINO's architecture is a carefully engineered pipeline designed to bridge the modality gap between vision and language. It begins with a dual-encoder setup: a Swin Transformer or ConvNeXt backbone extracts hier…

从“How to fine-tune Grounding DINO for custom objects”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 10015,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。