当前位置：首页 > article >正文

DINO-X：一种用于开放世界目标检测与理解的统一视觉模型

article 2024/11/28 3:41:26

摘要

本文介绍了由IDEA Research开发的DINO-X，这是一个统一的以对象为中心的视觉模型，具有迄今为止最佳的开放世界对象检测性能。DINO-X采用了与Grounding DINO 1.5 [47]相同的基于Transformer的编码器-解码器架构，以追求面向开放世界对象理解的对象级表示。为了使长尾对象检测变得容易，DINO-X扩展了其输入选项，以支持文本提示、视觉提示和自定义提示。借助这些灵活的提示选项，我们开发了一个通用对象提示，以支持无需提示的开放世界检测，从而可以在图像中检测任何对象，而无需用户提供任何提示。为了增强模型的核心对齐能力，我们构建了一个包含超过1亿个高质量对齐样本的大规模数据集，称为Grounding-100M，以提高模型的开放词汇检测性能。在如此大规模的对齐数据集上进行预训练可以获得基础的对象级表示，使DINO-X能够整合多个感知头，同时支持多个对象感知和理解任务，包括检测、分割、姿态估计、对象描述、基于对象的问答等。DINO-X包含两个模型：Pro模型，为各种场景提供增强的感知能力；Edge模型，针对更快的推理速度进行了优化，更适合在边缘设备上部署。实验结果表明，DINO-X性能卓越。具体而言，DINO-X Pro模型在COCO、LVIS-minival和LVIS-val零样本对象检测基准上分别实现了 $\mathrm{AP}$ 、 $\mathrm{AP}$ 和 $\mathrm{AP}$ 。值得注意的是，它在LVIS-minival和LVIS-val基准的稀有类别上分别获得了 $\mathrm{AP}$ 和 $\mathrm{AP}$ ，相比之前的SOTA性能分别提高了 $\mathrm{AP}$ 。这一结果凸显了其识别长尾对象的能力显著提升。我们的演示和API将在https://github.com/IDEA-Research/DINO-X-API上发布。
在这里插入图片描述

1 引言

近年来，对象检测逐渐从封闭集检测模型[74, 28, 4]演变为开放集检测模型[33, 29, 76]，能够识别与用户提供的提示相对应的对象。这些模型具有众多实际应用，例如提高机器人在动态环境中的适应性、协助自动驾驶汽车快速定位并对新对象作出反应、提高多模态大型语言模型（MLLMs）的感知能力、减少其幻觉现象并提高响应的可靠性。

本文介绍了由IDEA Research开发的DINO-X，这是一个统一的以对象为中心的视觉模型，具有迄今为止最佳的开放世界对象检测性能。DINO-X在Grounding DINO 1.5 [47]的基础上，采用了相同的Transformer编码器-解码器架构，并将开放集检测作为其核心训练任务。为了使长尾对象检测变得容易，DINO-X在模型的输入阶段采用了更全面的提示设计。传统的仅文本提示模型[33, 47, 29]虽然取得了很大进展，但由于难以收集足够多样化的训练数据来覆盖各种应用，因此仍然难以覆盖足够多的长尾检测场景。为了克服这一不足，在DINO-X中，我们扩展了模型架构，以支持以下三种类型的提示。（1）文本提示：这涉及基于用户提供的文本输入来识别所需对象，可以覆盖大多数检测场景。（2）视觉提示：除了文本提示外，DINO-X还支持如T-Rex2 [18]中的视觉提示，进一步覆盖无法仅通过文本充分描述的检测场景。（3）自定义提示：为了使更多长尾检测问题成为可能，我们特别在DINO-X中引入了自定义提示，这可以作为预定义或用户调整的提示嵌入来实现，以满足自定义需求。通过提示调整，我们可以为不同领域创建领域自定义提示或针对特定功能创建功能特定提示，以满足各种功能需求。例如，在DINO-X中，我们开发了一个通用对象提示，以支持无需提示的开放世界对象检测，从而可以在给定图像中检测任何对象，而无需用户提供任何提示。

为了实现强大的对齐性能，我们从不同来源收集和整理了超过1亿个高质量对齐样本，称为Grounding-100M。在如此大规模的对齐数据集上进行预训练可以获得基础的对象级表示，使DINO-X能够整合多个感知头，同时支持多个对象感知和理解任务。除了用于对象检测的框头外，DINO-X还实现了三个额外的头：（1）掩码头，用于预测检测到的对象的分割掩码；（2）关键点头，用于预测特定类别的更具语义意义的关键点；（3）语言头，用于为每个检测到的对象生成精细的描述性字幕。通过整合这些头，DINO-X可以提供对输入图像的更详细的对象级理解。在图1中，我们列出了各种示例，以说明DINO-X支持的对象级视觉任务。

与Grounding DINO 1.5类似，DINO-X也包含两个模型：DINO-X Pro模型，为各种场景提供增强的感知能力；DINO-X Edge模型，针对更快的推理速度进行了优化，更适合在边缘设备上部署。实验结果表明，DINO-X性能卓越。如图2所示，我们的DINO-X Pro模型在COCO、LVIS-minival和LVIS-val零样本迁移基准上分别实现了 $\mathrm{AP}$ 、 $\mathrm{AP}$ 和 $\mathrm{AP}$ 。值得注意的是，它在LVIS-minival和LVIS-val基准的稀有类别上分别获得了 $\mathrm{AP}$ 和 $\mathrm{AP}$ ，相比Grounding DINO 1.6 Pro分别提高了 $\mathrm{AP}$ 和 $\mathrm{AP}$ ，相比Grounding DINO 1.5 Pro分别提高了 $\mathrm{AP}$ 和 $\mathrm{AP}$ ，凸显了其识别长尾对象的能力显著提升。

2 方法

在这里插入图片描述

2.1 模型架构

DINO-X的总体框架如图3所示。继Grounding DINO 1.5之后，我们还开发了两种DINO-X模型的变体：一种更强大且全面的“Pro”版本，即DINO-X Pro，以及一种更快的“Edge”版本，称为DINO-X Edge，它们将分别在2.1.1和2.1.2节中详细介绍。
在这里插入图片描述

2.1.1 DINO-X Pro

DINO-X Pro模型的核心架构与Grounding DINO 1.5[47]类似。我们采用预训练的ViT[12]模型作为主要视觉主干，并在特征提取阶段采用深度早期融合策略。与Grounding DINO 1.5不同的是，为了进一步扩展模型检测长尾物体的能力，我们在DINO-X Pro的输入阶段扩展了提示支持。除了文本提示外，我们还扩展了DINO-X Pro以支持视觉提示和自定义提示，以满足各种检测需求。文本提示可以覆盖日常生活中常见的大多数物体检测场景，而视觉提示则在文本提示因数据稀缺和描述性限制而不足的情况下增强模型的检测能力[18]。自定义提示被定义为一系列可以通过提示调整[26]技术微调的专业提示，以在不牺牲其他能力的情况下，扩展模型在更多长尾、特定领域或特定功能场景下的物体检测能力。通过进行大规模的基础预训练，我们从DINO-X的编码器输出中获得了一个基础的对象级表示。这种稳健的表示使我们能够通过引入不同的感知头来无缝支持多个对象感知或理解任务。因此，DINO-X能够生成不同语义级别的输出，从粗粒度级别（如边界框）到更细粒度级别（包括掩码、关键点和对象说明）。

在以下段落中，我们将首先介绍DINO-X中支持的提示。

文本提示编码器：Grounding DINO[33]和Grounding DINO 1.5[47]均采用BERT[9]作为文本编码器。然而，BERT模型仅在文本数据上进行训练，这限制了其在需要多模态对齐的感知任务（如开放世界检测）中的有效性。因此，在DINO-X Pro中，我们采用预训练的CLIP[65]模型作为文本编码器，该模型已在广泛的多模态数据上进行预训练，从而进一步提高了模型在各种开放世界基准测试中的训练效率和性能。

视觉提示编码器：我们采用T-Rex2[18]中的视觉提示编码器，并将其集成到模型中，通过利用用户定义的框格式和点格式的视觉提示来增强物体检测。这些提示通过正弦-余弦层转换为位置嵌入，然后投影到统一特征空间。模型使用不同的线性投影来分离框提示和点提示。然后，我们采用与T-Rex 2中相同的多尺度可变形交叉注意力层，根据用户提供的视觉提示从多尺度特征图中提取视觉提示特征。

自定义提示：在实际用例中，经常需要对模型进行微调以适应自定义场景。在DINO-X Pro中，我们定义了一系列专业提示，称为自定义提示，这些提示可以通过提示调整[26]技术进行微调，以资源高效和成本效益高的方式覆盖更多长尾、特定领域或特定功能场景，同时不牺牲其他能力。例如，我们开发了一个通用对象提示来支持无提示的开放世界检测，从而能够检测图像中的任何对象，从而扩展其在屏幕解析[35]等领域的应用潜力。

给定输入图像和用户提供的提示（无论是文本、视觉还是自定义提示嵌入），DINO-X在提示和从输入图像中提取的视觉特征之间进行深度特征融合，然后为不同的感知任务应用不同的头。更具体地说，以下段落介绍了实现的头。

边界框头：继Grounding DINO[33]之后，我们采用语言引导查询选择模块来选择与输入提示最相关的特征作为解码器对象查询。然后，将每个查询输入到Transformer解码器中并逐层更新，接着是一个简单的MLP层，用于预测每个对象查询对应的边界框坐标。与Grounding DINO类似，我们采用L1损失和G-IoU[49]损失进行边界框回归，同时使用对比损失使每个对象查询与输入提示对齐以进行分类。

Mask Head：我们遵循Mask2Former[4]和Mask DINO[28]的核心设计，通过将 $\frac{1}{4}$ 分辨率的主干特征和上采样后的 $\frac{1}{8}$ 分辨率的Transformer编码器特征相融合，构建了像素嵌入图。然后，我们在Transformer解码器的每个对象查询和像素嵌入图之间执行点积运算，以获得查询的掩码输出。为了提高训练效率，主干中的 $\frac{1}{4}$ 分辨率特征图仅用于掩码预测。我们还遵循[24, 4]，在最终掩码损失计算中仅对采样点计算掩码损失。

Keypoint Head：关键点头从DINO-X中获取与关键点相关的检测输出（如人或手）作为输入，并利用单独的解码器来解码对象关键点。每个检测输出被视为一个查询，并扩展为多个关键点，然后将这些关键点发送到多个可变形的Transformer解码器层中，以预测所需的关键点位置及其可见性。这个过程可以看作是简化版的ED-Pose[68]算法，它不需要考虑对象检测任务，而只专注于关键点检测。在DINO-X中，我们分别为人和手实例化了两个关键点头，分别有17个和21个预定义的关键点。
在这里插入图片描述

Language Head：语言头是一个任务可提示的生成式小型语言模型，旨在增强DINO-X理解区域上下文和执行定位之外感知任务的能力，如对象识别、区域描述、文本识别和基于区域的视觉问答（VQA）。我们的模型架构如图4所示。对于DINO-X检测到的任何对象，我们首先使用RoIAlign[15]算子从DINO-X主干特征中提取其区域特征，并将其与查询嵌入相结合，形成我们的对象标记。然后，我们应用一个简单的线性投影，以确保它们的维度与文本嵌入对齐。轻量级语言解码器将这些区域表示与任务标记相结合，以自回归方式生成输出。可学习的任务标记使语言解码器能够处理各种任务。

2.1.2 DINO-X Edge

继Grounding DINO 1.5 Edge[47]之后，DINO-X Edge也利用EfficientViT[1]作为主干进行高效特征提取，并纳入了类似的Transformer编码器-解码器架构。为了进一步提升DINO-X Edge模型的性能和计算效率，我们在以下方面对模型架构和训练技术进行了多项改进：

更强的文本提示编码器：为了实现更有效的区域级多模态对齐，DINO-X Edge采用了与我们Pro模型相同的CLIP文本编码器。在实践中，大多数情况下的文本提示嵌入都可以预先计算，并且不会影响视觉编码器和解码器的推理速度。使用更强的文本提示编码器通常会带来更好的结果。

知识蒸馏：在DINO-X Edge中，我们通过知识蒸馏将Pro模型的知识传递给Edge模型，以增强其性能。具体来说，我们同时使用了基于特征和基于响应的知识蒸馏，分别使Edge模型和Pro模型之间的特征和预测逻辑保持一致。这种知识迁移使得DINO-X Edge与Grounding DINO 1.6 Edge相比具有更强的零样本能力。

改进的FP16推理：我们为浮点乘法采用了一种归一化技术，使模型能够在不牺牲精度的情况下量化为FP16。这实现了20.1 FPS的推理速度，与Grounding DINO 1.6 Edge的15.1 FPS相比提高了33%，与Grounding DINO 1.5 Edge的10.7 FPS相比提高了87%。

3 数据集构建与模型训练

数据收集：为确保核心开放词汇对象检测能力，我们开发了一个高质量且语义丰富的锚定数据集，该数据集由从网络上收集的超过1亿张图像组成，称为Grounding-100M。我们使用T-Rex 2的训练数据以及一些额外的工业场景数据，用于基于视觉提示的锚定预训练。我们使用开源分割模型，如SAM [23]和SAM2 [46]，为Grounding-100M数据集的一部分生成伪掩码标注，这些标注作为我们掩码头的主要训练数据。我们从Grounding-100M数据集中采样了一个高质量数据子集，并利用它们的框标注作为我们的无提示检测训练数据。我们还收集了超过1000万条区域理解数据，涵盖对象识别、区域字幕生成、OCR和区域级问答场景，用于语言头的训练。

模型训练：为克服训练多个视觉任务的挑战，我们采用了两阶段策略。在第一阶段，我们进行了基于文本提示的检测、基于视觉提示的检测和对象分割的联合训练。在这一训练阶段，我们没有使用COCO [32]、LVIS [14]和V3Det [57]数据集中的任何图像或标注，以便我们可以在这些基准上评估模型的零样本检测性能。如此大规模的锚定预训练确保了DINO-X具有出色的开放词汇锚定性能，并产生了基础的对象级表示。在第二阶段，我们冻结了DINO-X主干，并添加了两个人体关键点头（用于人和手）和一个语言头，每个头分别训练。通过添加更多的头，我们极大地扩展了DINO-X执行更细粒度的感知和理解任务的能力，如姿态估计、区域字幕生成、基于对象的问答等。随后，我们利用了提示调整技术，并训练了一个通用对象提示，允许进行无提示的任意对象检测，同时保留模型的其他能力。这种两阶段训练方法具有几个优点：（1）它确保了模型的核心锚定能力不受引入新能力的影响；（2）它还验证了大规模锚定预训练可以作为以对象为中心的模型的稳健基础，允许无缝转移到其他开放世界理解任务。

4 评估

在本节中，我们将DINO-X系列模型的各种能力与其相关工作进行了比较。最佳和第二佳结果分别用粗体和下划线表示。

4.1 DINO-X Pro

4.1.1 开放世界检测与分割

零样本对象检测与分割基准评估：遵循Grounding DINO 1.5 Pro [47]，我们在COCO [32]基准（包括80个常见类别）和LVIS基准（具有更丰富和更广泛的长尾类别分布）上评估了DINO-X Pro的零样本对象检测和分割能力。如表1所示，与之前的最先进的方法相比，DINO-X Pro的性能有了显著提高。具体而言，在COCO基准上，DINO-X Pro与Grounding DINO 1.5 Pro和Grounding DINO 1.6 Pro相比，分别实现了1.7和0.6的框AP提升。在LVIS-minival和LVIS-val基准上，DINO-X Pro分别实现了59.8和52.4的框AP，分别比先前表现最佳的Grounding DINO 1.6 Pro模型高出2.0 AP和1.1 AP。值得注意的是，在LVIS稀有类别的检测性能上，DINO-X在LVIS-minival上实现了63.3 AP，在LVIS-val上实现了56.5 AP，分别比之前的SOTA Grounding DINO 1.6 Pro模型高出5.8 AP和5.0 AP，这证明了DINO-X在长尾对象检测场景中的卓越能力。在分割指标方面，我们在COCO和LVIS零样本实例分割基准上，将DINO-X与最常用的通用分割模型Grounded SAM [48]系列进行了比较。使用Grounding DINO 1.5 Pro进行零样本检测，SAM-Huge [23]进行分割，Grounded SAM在LVIS实例分割基准上实现了最佳的零样本性能。DINO-X在COCO、LVIS-minival和LVIS-val零样本实例分割基准上的掩码AP分数分别为37.9、43.8和38.5。与Grounded SAM相比，DINO-X在性能方面仍有明显的差距需要追赶，这显示了训练一个用于多个任务的统一模型的挑战。尽管如此，DINO-X通过为每个区域生成相应的掩码，而无需多个复杂的推理步骤，显著提高了分割效率。我们将在未来的工作中进一步优化掩码头的性能。
在这里插入图片描述

基于视觉提示的检测基准评估：为评估DINO-X的视觉提示目标检测能力，我们在小样本目标计数基准上进行了实验。在此任务中，每张测试图像都附带三个视觉示例框，代表目标对象，模型需要输出目标对象的数量。我们使用FSC147[45]和FSCD-LVIS[40]数据集评估性能，这两个数据集均以包含大量小对象的场景为特征。具体而言，FSC147主要由单目标场景组成，即每张图像中仅存在一种对象，而FSCD-LVIS则侧重于包含多个对象类别的多目标场景。对于FSC147，我们报告平均绝对误差（Mean Absolute Error，MAE）指标，而对于FSCD-LVIS，我们使用平均精度（Average Precision，AP）指标。遵循先前的工作[17, 18]，视觉示例框被用作交互式视觉提示。如表2所示，DINO-X取得了最先进的性能，证明了其在实用视觉提示目标检测方面的强大能力。
在这里插入图片描述

4.1.2 关键点检测

人体二维关键点基准评估：我们在COCO[32]、CrowdPose[52]和Human-Art[20]基准上，将DINO-X与其他相关工作进行了比较，如表3所示。我们采用基于对象关键点相似度（Object Keypoint Similarity，OKS）的平均精度（AP）[52]作为主要指标。请注意，姿态头是在MSCOCO、CrowdPose和Human-Art上联合训练的。因此，该评估并非零样本设置。但是，由于我们冻结了DINO-X的主干网络，并且仅训练了姿态头，因此对象检测和分割的评估仍然遵循零样本设置。通过在多个姿态数据集上进行训练，我们的模型可以有效地预测各种人物风格的关键点，包括日常场景、拥挤环境、遮挡和艺术表现。虽然我们的模型实现的AP比ED-Pose低1.6（主要是由于姿态头中可训练参数的数量有限），但它在CrowdPose和Human-Art上分别比现有模型高出3.4 AP和1.8 AP，显示出其在更多样化场景下的卓越泛化能力。
在这里插入图片描述

人体手部二维关键点基准评估：除了评估人体姿态外，我们还使用正确定位关键点的百分比（Percentage of Correctly Localized Keypoints，PCK）作为度量标准，在HInt基准[42]上展示了手部姿态结果。PCK是用于评估关键点定位准确性的指标。如果预测位置和真实位置之间的距离低于指定阈值，则认为该关键点正确。我们使用0.05倍框大小作为阈值，即PCK@0.05。在训练过程中，我们结合了HInt、COCO和OneHand10K[59]（比较方法HaMeR[42]的子集）训练数据集，并在HInt测试集上评估性能。如表4所示，DINO-X在PCK@0.05指标上取得了最佳性能，表明其在高精度手部姿态估计方面具有强大能力。

4.1.3 对象级视觉语言理解

对象识别评估：我们通过对象识别基准验证了语言头的有效性，这些基准需要识别图像指定区域中对象的类别。遵循Osprey[73]，我们使用语义相似度（Semantic Similarity，SS）和语义交并比（Semantic Intersection over Union，S-IoU）[8]来评估语言头在对象级LVIS-val[14]和部件级PACO-val[44]数据集上的对象识别能力。如表5所示，我们的模型在SS上达到了71.25%，在S-IoU上达到了41.15%，在LVIS-val数据集上，SS比Osprey高出6.01%，S-IoU高出2.06%。在PACO数据集上，我们的模型表现不如Osprey。请注意，我们并未将LVIS和PACO纳入语言头训练，并且我们的模型性能是以零样本方式实现的。在PACO上表现不佳可能是由于我们的训练数据与PACO之间存在差异。而且，我们的模型只有1%的可训练参数，相比之下Osprey的可训练参数更多。
在这里插入图片描述

区域字幕评估：我们在Visual Genome[25]和RefCOCOg[37]上评估了我们模型的区域字幕质量。评估结果如表6所示。值得注意的是，基于冻结的DINO-X主干网络提取的对象级特征，并且没有利用任何Visual Genome训练数据，我们的模型以零样本方式在Visual Genome基准上实现了142.1的CIDEr分数。此外，在Visual Genome数据集上进行微调后，我们仅使用一个轻量级语言头就取得了201.8的CIDEr分数，创下了新的最优结果。
在这里插入图片描述

4.2 DINO-X Edge

在零样本目标检测基准上的评估：为了评估DINO-X Edge的零样本目标检测能力，我们在Grounding-100M上进行预训练后，对COCO和LVIS基准进行了测试。如表7所示，DINO-X Edge在COCO基准上远超现有的实时开放集检测器。DINO-X Edge在LVIS-minival和LVIS-val上也分别达到了48.3 AP和42.0 AP，证明了在长尾检测场景下具有出色的零样本检测能力。
在这里插入图片描述

我们使用NVIDIA Orin NX上的FP32和FP16 TensorRT模型评估了DINO-X Edge的推理速度，以每秒帧数（FPS）衡量性能。还包括了在A100 GPU上PyTorch模型和FP32 TensorRT模型的FPS结果。†表示使用最新的官方代码复现了YOLO-World的结果。

利用浮点乘法中的归一化技术，我们可以在不牺牲性能的情况下将模型量化到FP16。在输入大小为 $640 \times 640$ 时，DINO-X Edge的推理速度达到了20.1 FPS，相比Grounding DINO 1.6 Edge提高了 $33\%$ （从15.1 FPS提高到20.1 FPS）。

5 案例分析与定性可视化

在本节中，我们可视化了DINO-X模型在不同现实世界场景中的各种能力。图像主要来源于COCO[32]、LVIS[14]、V3Det[57]、SA-1B[23]和其他公开资源。我们非常感谢他们的贡献，这对社区有着极大的益处。

5.1 开放世界目标检测

如图5所示，DINO-X展示了根据给定的文本提示检测任何目标的能力。它可以识别从常见类别到长尾类别和密集目标场景的各种目标，展示了其强大的开放世界目标检测能力。
在这里插入图片描述

5.2 长文本短语定位

如图6所示，DINO-X展现出令人印象深刻的能力，能够根据长文本中的名词短语定位图像中的对应区域。将详细文本中的每个名词短语映射到图像中的具体目标，标志着深度图像理解取得了重大进展。这一特征具有实质性的实用价值，例如，使多模态大型语言模型（MLLMs）能够生成更准确和可靠的响应。
在这里插入图片描述

5.3 开放世界目标分割和视觉提示计数

如图7所示，除了Grounding DINO 1.5[47]之外，DINO-X不仅实现了基于文本提示的开放世界目标检测，还为每个目标生成了相应的分割掩码，提供了更丰富的语义输出。此外，DINO-X还支持通过在目标对象上绘制边界框或点来基于用户定义的视觉提示进行检测。这一能力在目标计数场景中表现出色。
在这里插入图片描述

5.4 无提示目标检测和识别

在DINO-X中，我们开发了一个名为无提示目标检测的高度实用功能，它允许用户在不提供任何提示的情况下检测输入图像中的任何目标。如图8所示，当与DINO-X的语言头结合时，该功能能够无缝检测并识别图像中的所有目标，而无需任何用户输入。
在这里插入图片描述

5.5 密集区域描述

如图9所示，DINO-X可以为任何指定区域生成更细粒度的描述。此外，借助DINO-X的语言头，我们还可以执行基于区域的问答和其他区域理解任务。目前，该功能仍处于开发阶段，将在我们的下一个版本中发布。
在这里插入图片描述

5.6 人体和手部姿态估计

如图10所示，DINO-X可以通过关键点头基于文本提示为特定类别预测关键点。DINO-X在COCO、CrowdHuman和Human-Art数据集的组合上进行训练，能够在各种场景下预测人体和手部关键点。

5.7 与Grounding DINO 1.5 Pro的并排比较

我们将DINO-X与先前的最先进模型Grounding DINO 1.5 Pro和Grounding DINO 1.6 Pro进行了并排比较。如图11所示，在Grounding DINO 1.5的基础上，DINO-X进一步增强了其语言理解能力，同时在密集目标检测场景中表现出色。
在这里插入图片描述

6 结论

本文提出了DINO-X，一个强大的以目标为中心的视觉模型，旨在推动开放集目标检测和理解的领域发展。旗舰模型DINO-X Pro在COCO和LVIS零样本基准上创造了新纪录，在检测准确性和可靠性方面取得了显著改进。为了使长尾目标检测更加容易，DINO-X不仅支持基于文本提示的开放世界检测，还支持基于视觉提示和自定义提示的目标检测，用于自定义场景。此外，DINO-X将其能力从检测扩展到更广泛的感知任务，包括分割、姿态估计和目标级理解任务。为了使更多应用在边缘设备上实现实时目标检测，我们还开发了DINO-X Edge模型，进一步扩展了DINO-X系列模型的实用性。