如果你心里还只有YOLO-World你就输了！DetCLIPv3出手，性能大幅度超出一众SOTA模型！

集智书童公众号

发布于 2024-04-30 18:23:29

2580

发布于 2024-04-30 18:23:29

点击下方卡片，关注「集智书童」公众号

现有的开词汇目标检测器通常需要用户预设一组类别，这大大限制了它们的应用场景。在本文中，作者介绍了DetCLIPv3，这是一种高性能检测器，不仅在开词汇目标检测方面表现出色，同时还能为检测到的目标生成分层标签。 DetCLIPv3的特点有三个核心设计：

多功能的模型架构：作者导出一个健壮的开集检测框架，并通过集成字幕 Head 进一步赋予其生成能力。
高信息密度数据：作者开发了一个自动标注 Pipeline ，利用视觉大型语言模型来细化大规模图像-文本对中的字幕，为训练提供丰富、多粒度的目标标签以增强训练。
高效的训练策略：作者采用了一个预训练阶段，使用低分辨率输入，使目标字幕生成器能够从广泛的图像-文本配对数据中高效学习广泛的视觉概念。

在预训练之后是一个微调阶段，利用少量高分辨率样本进一步提高检测性能。借助这些有效的设计，DetCLIPv3展示了卓越的开词汇检测性能，例如，作者的Swin-T Backbone 模型在LVIS minival基准上取得了显著的47.0零样本固定AP，分别优于GLIPv2、GroundingDINO和DetCLIPv2 18.0/19.6/6.6 AP。DetCLIPv3在VG数据集上的密集字幕任务也取得了先进的19.7 AP，展示了其强大的生成能力。

1 Introduction

在开放词汇目标检测（OVD）领域的近期进展已经实现了识别和定位多种不同目标的能力。然而，这些模型在推理过程中依赖于预定义的目标类别列表，这限制了它们在实际场景中的应用。

与目前仅基于类别名称识别物体的开放词汇目标检测（OVD）方法相比，人类认知展现出了更多的灵活性。如图2所示，人类能够以层次化的方式，从不同的粒度理解物体。这种多级识别能力展示了人类丰富的视觉理解能力，这是现代OVD系统尚未达到的。

为了解决上述限制，作者引入了DetCLIPv3，这是一种新型的目标检测器，它扩展了开放词汇目标检测的范围。DetCLIPv3不仅能够根据提供的类别名称识别物体，还能够为每个检测到的物体生成层次化的标签。这一特性具有两个优点：1) 由于其卓越的生成能力，即使在没有适当的输入物体类别的情况下，检测器仍然适用；2) 模型能够提供关于物体的全面且分层的描述，而不仅仅是基于给定类别进行识别。具体来说，DetCLIPv3具有三个核心设计特点：

多功能的模型架构： DetCLIPv3基于一个健壮的开词汇（OV）检测器，并且进一步通过一个物体描述器增强了其生成能力。具体来说，物体描述器利用OV检测器提供的foreground proposals（前景 Proposal ），并通过语言建模训练目标来训练生成每个检测到的物体的分层标签。这种设计不仅允许精确的定位，还能提供视觉概念的详细描述，从而为视觉内容提供更丰富的解释。

高信息密度数据： 发展强大的生成能力需要丰富的训练数据，这些数据需充实了详细的物体 Level 描述。这样全面的数据库稀缺（例如，Visual Genome [25]）成为了训练有效物体描述生成器的重大障碍。另一方面，尽管大规模的图像-文本配对数据很丰富，但它们缺乏对每个物体的细粒度标注。为了利用这些数据，作者设计了一个自动标注管线，利用最先进的视觉大型语言模型[7, 35]，该模型能够提供包含丰富层次化物体标签的精细图像描述。通过这个管线，作者得到了一个大规模的数据集（称为GranuCap50M），以增强DetCLIPv3在检测和生成方面的能力。

高效的多阶段训练： 与高分辨率输入相关的目标检测训练成本高昂，这对从大量的图像-文本对中学习构成了重大障碍。为了解决这个问题，作者提出了一种高效的多阶段对齐训练策略。这种方法首先利用大规模、低分辨率的图像-文本数据集的知识，然后在高质量、细粒度、高分辨率的数据上进行微调。这种方法确保了全面的视觉概念学习，同时保持了可管理的训练需求。

通过有效的设计，DetCLIPv3在检测和目标 Level 的生成能力上表现出色，例如，采用Swin-T Backbone 网络，在LVIS minival基准测试中取得了显著的47.0零样本固定AP[9]，明显优于先前的模型如GLIPv2[65]，DetCLIPv2[60]和GroundingDINO[36]。此外，它在密集字幕任务上达到18.4 mAP，比先前的SOTA方法GRiT[56]高出2.9 mAP。广泛的实验进一步证明了DetCLIPv3在领域泛化及下游迁移能力方面的优越性。

2 Related works

开放词汇目标检测。 近期在开放词汇目标检测（OVD）方面的进展使得可以识别无限范围类别的目标，如文献[16, 17, 57, 63, 69]所示。这些方法通过将预训练的视觉-语言模型，例如CLIP [46]，整合到检测器中来实现OVD。另外，扩大检测训练数据集也显示出潜力[24, 29, 31, 36, 58, 60, 65, 70]，这些方法结合了来自各种任务（如分类和视觉定位）的数据集。此外，伪标签已经作为增强训练数据集的另一种有效策略出现，如文献[15, 29, 43, 58, 68, 69]所示。然而，先前的OVD方法仍然需要一个预定义的目标类别进行检测，这限制了它们在多样化场景中的适用性。相比之下，作者的DetCLIPv3即使在没有类别名称的情况下也能够生成丰富的分层目标标签。

密集字幕生成。 密集字幕生成旨在为特定图像区域生成描述[23, 28, 30, 51, 61]。最近，CapDet [38] 和 GRiT [56] 都通过引入一个字幕生成器，为目标检测器配备了生成能力。然而，由于训练数据稀缺，例如 Visual Genome [25] 中包含的数据，它们只能为有限的视觉概念生成描述。相比之下，作者利用大规模图像-文本对中的丰富知识，使模型能够为更广泛的概念谱生成分层标签信息。

图像-文本对的重新描述。 近期研究 [5, 26, 44, 62] 强调了当前图像-文本对数据中存在的问题，并已表明重新描述的高质量图像-文本对可以显著提高各种视觉任务的学习效率，例如文本到图像生成 [5, 44]，图像-文本检索 [26, 27] 和图像标注 [26, 62]。作者将这一想法扩展到开放词汇目标检测，并探索如何有效地利用图像-文本对中包含的目标实体信息。

3 Method

在本节中，作者介绍了DetCLIPv3的核心设计，包括：(1)模型架构（第3.1节）—阐述作者的模型如何实现开词汇目标检测及生成目标描述；(2)自动标注数据流程（第3.2节）—详细说明作者策划大规模、高质量的图像-文本对的方法，涵盖不同粒度层面的目标信息；(3)训练策略（第3.3节）—概述作者如何有效地利用大规模图像-文本数据集来促进目标概念的生成，进而提升开词汇检测的能力。

Model Design

图3展示了DetCLIPv3的整体框架。本质上，该模型基于一个强大的开放词汇目标检测器，并配备了一个专门用于生成分层和描述性目标概念的目标标题生成器。该模型能够在两种模式下运行：1) 当提供一个预定义的类别词汇表时，DetCLIPv3预测列表中提到的物体的定位；2) 在没有词汇表的情况下，DetCLIPv3能够定位物体并为每一个物体生成分层描述。

数据制定。 DetCLIPv3的训练利用了来自多个来源的数据集，包括检测[50, 55]、定位[24]以及图像-文本对[4, 48, 52, 53]，并带有边界框伪标签（具体见第3.2节）。与DetCLIPv1/v2[58, 60]一样，作者采用一种_平行制定_方法将来自不同数据源的文本输入统一为一种标准格式。具体来说，每个输入样本结构化为一个三元组，

(x,\{\mathbf{b}_{i}\}_{i=1}^{N},y_{i=1}^{M})

，其中

x\in\mathbb{R}^{3\times H\times W}

是输入图像，

\{\mathbf{b}_{i}|\mathbf{b}_{i}\in\mathbb{R}^{4}\}_{i=1}^{N}

表示一组边界框，而

y_{i=1}^{M}

则表示一组概念文本，包括正负概念。

对于检测数据，

y_{j}

包括类别名称及其定义（如 [58, 60] 中所述），适用于训练和测试阶段。负概念是从数据集中的类别中抽取的。对于接地（grounding）和图像-文本对数据，正概念是目标描述，而负概念则从大规模名词语料库中抽取（具体见第3.2节）。在训练期间，为了增加负概念的数量，作者从所有训练节点收集它们，并执行去重处理。

开放词汇检测器。 作者提出了一种紧凑但功能强大的检测器架构，用于DetCLIPv3，如图3中红色框所示。具体来说，它是一个双路径模型，包括一个视觉目标检测器

\Phi_{v}

和一个文本编码器

\Phi_{t}

。视觉目标检测器采用基于 Transformer 的检测架构[3, 66, 71]，由一个 Backbone 网络、一个像素编码器和一个目标解码器组成。 Backbone 网络和像素编码器负责提取视觉特征，进行细粒度特征融合，并为解码器提出候选目标 Query 。类似于GroundingDINO [36]，作者利用文本特征根据相似性选择前k个像素特征，并后来使用它们的坐标预测来初始化解码器目标 Query 的位置部分。然而，与众不同的是，作者放弃了在[36]中设计的计算密集型跨模态融合模块。遵循先前的DETR-like检测器[3, 66, 71]，作者的训练损失由三个组成部分构成：

\mathcal{L}_{det}=\mathcal{L}_{align}+\mathcal{L}_{box}+\mathcal{L}_{iou}

，其中

\mathcal{L}_{align}

是区域视觉特征与文本概念之间的对比焦损失[34]，而

\mathcal{L}_{box}

和

\mathcal{L}_{iou}

分别是L1损失和GIOU[47]损失。为了提升性能，在解码器的每一层以及编码器的输出上采用了辅助损失。

目标描述器。 目标描述器使DetCLIPV3能够为物体生成详细和分层的标签。为了获取图像-文本对中包含的丰富知识，作者在训练过程中进一步结合了图像级字幕目标以增强生成能力。如图3中蓝色框所示，目标描述器的设计受到Qformer [27]的启发。具体来说，它采用了一种基于多模态Transformer的架构，其交叉注意力层被替换为为密集预测任务定制的可变形注意力[71]。描述器的输入包括视觉（物体或图像） Query 和文本标记。视觉 Query 通过交叉注意力与像素编码器的特征交互，而自注意力层和FFN层在不同模态之间共享。此外，采用了多模态因果自注意力 Mask [11, 27]来控制视觉 Query 与文本标记之间的交互。描述器的训练由传统的语言建模损失

\mathcal{L}_{lm}

指导，对于物体级和图像级生成具有不同的输入格式：

目标级生成。目标 Query 以及可变形交叉注意力所需的参考点，都来源于目标解码器最终层的输出。输入结构为：，其中\texttt{[OBJ]}是一个特殊的任务 Token ，表示目标生成任务。在训练期间，作者使用与 GT 情况相匹配的正 Query 来计算损失。在推理过程中，为了获得前景 Proposal ，作者根据它们与作者精选名词语料库（第3.2节）中最频繁的15K名词概念的相似性，选择前k个候选目标 Query 。在为这些目标生成分层标签后，作者使用OV检测器重新校准它们的目标性得分，计算目标 Query 与它们生成的'短语'和'类别'字段之间的相似性。这2个相似性中较高的一个被采纳作为目标性得分。

图像级生成。受到Qformer [27]的启发，作者初始化了32个可学习的图像 Query ，并使用一组固定的参考点。具体来说，作者从像素编码器的参考点等间隔地采样了32个位置。与目标级生成类似，输入结构为，其中\texttt{[IMG]} 是一个特殊的任务标记，表示图像生成。图像级生成的推理过程与训练是一致的。</imagequery,

Dataset Construction

自动标注数据 Pipeline 。利用大量成本效益高的图像-文本对进行视觉概念学习，对于提高开放词汇目标检测器的一般化能力至关重要。然而，现有的图像-文本对数据集存在重大缺陷，这些缺陷阻碍了它们在OVD中的实用性，如图4所示：(1) 错位：互联网来源的图像-文本对数据经常包含大量噪声。即使使用CLIP [46]基于分数的过滤[48, 49]，许多文本仍然无法准确描述图像的内容，如图4的第二和第三张图像所示。(2) 部分标注：大部分文本只描述图像中的主要目标，导致目标信息稀疏，因此，损害了OVD系统的学习效率，如图1所示。(3) 实体提取挑战：先前的工作[24, 32, 43, 60]主要使用传统的NLP解析器，如NLTK [1, 42]或SpaCy [21]，从图像-文本对中提取名词概念。它们的有限能力可能导致名词与图像内容对齐不良，如图4的第二行所示。这种不匹配为后续的学习过程或伪标签工作流程带来了进一步的复杂性。

一个理想的图像-文本对数据集对于视觉描述（OVD）应当包含对图像的准确和全面的描述，提供从详细到粗略不同粒度 Level 的图像中目标的信息。基于这种启发，作者 Proposal 使用视觉大型语言模型（VLLM）[7, 35]来开发一个自动标注流水线，以提高数据质量。VLLM具有感知图像内容的能力，以及强大的语言技能，使它们能够生成精确和详细的标题以及目标描述。

使用VLLM重制标题：作者从常用的数据集[4, 52, 53]中抽取了24万张图像-文本对，并使用InstructBLIP [7]模型进行了重制标题。为了利用原始标题中的信息，作者将其融入作者的提示设计中，结构如下：_"给定图像的一个含噪声的标题：{原始标题}，撰写一幅图像的详细清晰描述。"_。这种方法有效地提升了标题文本的质量，同时保持了原始标题中名词概念的多样性。

使用GPT-4的实体提取：作者利用GPT-4[45]卓越的语言能力来处理精致标题中的实体信息。具体来说，首先用它过滤掉VLLM生成的标题中非实体的描述，比如对图像的氛围或艺术性解读。随后，它负责从标题中提取出现的物体实体。每个实体都被格式化为一个三元组：{短语，类别，父类别}，分别表示物体描述在三个不同粒度 Level 上。

对VLLM进行大规模标注的指令调整：考虑到GPT-4 API的高昂成本，将其用于大规模数据集生成是不切实际的。作为一种解决方案，作者在LLaVA [35]模型上执行进一步的指令调整阶段，利用之前步骤获得的改进的标题和目标实体。然后，这个微调后的模型被用来为包含200M图像-文本对的大型数据集生成标题和实体信息，这些样本取自CC15M [4, 52]，YFCC[53] 和 LAION [48]。

边界框自动标记：为了自动推导出图像-文本配对数据中的边界框标注，作者应用一个预训练的开词汇目标检测器（第3.3节）来分配伪边界框标签，给定从前一步骤中得出的目标实体。当提供来自VLLM的准确候选目标实体时，检测器的准确性可以大大提高。具体来说，作者将 '短语' 和 '类别' 字段作为检测器的文本输入，并使用预定义的分数阈值来过滤结果边界框。如果这两个字段中的任何一个匹配，作者会为该目标分配整个实体 {短语, 类别, 父类别}。在使用预定义的置信度阈值过滤后，大约有5000万个数据被采样用于后续训练，作者将其称为 GranuCap50M。在训练检测器时，作者使用 '短语' 和 '类别' 字段作为文本标签；而在训练目标描述器时，作者将三个字段 - '短语'

类别'

父类别' - 连接起来，作为目标的 GT 描述。

无概念语料库。 与DetCLIP [58]相似，作者利用提取的目标实体的信息开发了一个名词概念语料库。这个语料库主要旨在为GT和图像-文本对数据（第3.1节）提供负概念。具体来说，作者从20亿个重新配文的数据中收集实体的_'category'_字段。在频率分析之后，总频率低于10的概念被省略。DetCLIPv3的名词概念语料库由792k名词概念组成，几乎是DetCLIP中构建的14k概念的57倍扩展。

Multi-stage Training Scheme

学习生成多样化的物体描述需要在大型数据集上进行广泛的训练。然而，像目标检测这样的密集预测任务需要高分辨率输入才能有效处理不同物体之间的尺度变化。这大大提高了计算成本，给扩大训练规模带来了挑战。为了缓解这个问题，作者开发了一个基于“预训练+微调”范式的训练策略来优化训练成本，具体来说，它包括以下3个步骤：

训练OV检测器（第一阶段）：在初始阶段，作者用标注的数据集来训练OV检测器，即Objects365 [50]，V3Det[55]和GoldG [24]。为了使模型在后续训练阶段能够从低分辨率输入中学习，作者对训练数据应用了大规模抖动增强。此外，在这一阶段开发的具有Swin-L Backbone 网络的模型被用来为图像-文本对生成伪边界框，具体如第3.2节所述。

预训练目标描述生成器（阶段2）：为了使目标描述生成器能够生成多样化的目标描述，作者使用GranuCap50M对其进行预训练。为了提高这个训练阶段的效率，作者冻结了OV检测器所有的参数，包括 Backbone 网络、像素编码器和目标解码器，并采用了较低的输入分辨率320×320。这种策略使得描述生成器能够从大规模的图像-文本对中有效地获取视觉概念知识。

整体微调（阶段3）：这一阶段旨在使字幕生成器适应高分辨率输入，同时提高 OV 检测器的性能。具体来说，作者从 GranuCap50M 中均匀抽取了60万个样本。这些样本以及检测和定位数据集一起用来进一步微调模型。在此阶段，释放所有参数以最大化有效性，训练目标设置为检测和字幕生成损失的组合，即

\mathcal{L}=\mathcal{L}_{det}+\mathcal{L}_{lm}

。字幕生成器的监督仅来自使用作者的自动标注 Pipeline 构建的数据集，而所有数据都用于 OV 检测器的训练。由于检测器和字幕生成器都已进行预训练，因此模型可以在几个周期内有效适应。

4 Experiments

训练细节。 作者使用Swin-T和Swin-L [37] 主干网络训练了2个模型。目标检测器的训练设置主要遵循DetCLIPv2 [60]。作者分别使用32/64块V100 GPU来训练基于swin-T/L的模型。三个阶段的训练周期分别为12、3和5。对于使用Swin-T主干网络的模型，这些阶段的相应训练时间总计为54、56和35小时。有关其他训练细节，请参阅附录。

Zero-Shot Open-Vocabulary Object Detection

遵循之前的工作[29, 43, 58, 60, 65]，作者用1203类LVIS[18]数据集上的零样本性能来评估作者模型的开放词汇能力。作者报告了在val（LVIS

{}^{\text{val}}

）和mini-val[24]（LVIS

{}^{\text{minival}}

）分割上的固定AP[9]性能。在这个实验中，作者仅使用了模型的OV检测器组件，并将数据集的类别名称作为输入。

表1展示了作者的方法与现有方法的比较。DetCLIPv3显著优于其他方法，展现了卓越的开词汇目标检测能力。例如，在LVIS小型验证集上，采用Swin-T（第8行）和Swin-L（第15行） Backbone 网络的作者的模型分别达到47.0和48.8的AP，分别比之前的最先进方法DetCLIPv2提高了6.6（第7行）和4.1 AP（第14行）。值得注意的是，作者的Swin-L模型在稀有类别上的性能（49.9 AP）甚至超过了在基础类别上的性能（频繁类别中为47.8 AP，普通类别中为49.7 AP）。这表明，使用高质量图像-文本对的全面预训练大大增强了模型识别各种视觉概念的能力，导致在长尾分布数据上的检测能力显著提升。

Evaluation of Object Captioner

作者采用了2个任务来评估作者的物体描述生成器，即零样本生成式目标检测和密集标注。

零样本生成目标检测。 作者在COCO [33] 数据集上进行了零样本目标级标签生成，使用的推理过程是第3.1节中描述的，并评估了其检测性能。然而，这种评估由于两个关键因素而具有重大挑战：(1) 缺乏预定义的类别用于前景选择，导致检测器提出的前景区域与数据集的目标模式之间存在不一致。(2) 生成结果可以是任何任意的词汇，这可能与数据集中指定的类别名称不匹配。为了缓解这些问题，作者引入了多种后处理技术。具体来说，作者使用生成的标签中的“类别”字段作为目标的类别。为了解决第(2)个问题，在评估过程中，作者使用评估模型的文本编码器计算生成类别与COCO类别名称之间的相似性，并用最佳匹配的COCO类别替换生成的目标类别。为了解决第(1)个问题，作者进一步过滤掉相似度得分低于预定义阈值0.7的目标。

为了与现有方法进行比较，作者采用了在OVR-CNN [64]中提出的OV COCO设置，其中从COCO中选择了48个类别作为基础类别，17个作为新颖类别。所使用的评估指标是在IoU为0.5时的mAP。与先前方法相反，_作者在所有设置中执行零样本生成OV检测，而无需对基础类别进行训练_。表2展示了评估结果。作者的生成方法可以在新颖类别性能上显著优于先前的判别方法。而且，在没有对基础类别进行训练的情况下，作者的总体AP达到了与先前方法相当的水平。这些结果证明了基于生成的OV检测作为一个有前景的范式的潜力。

密集字幕生成。 利用从大量的图像-文本对中获得的视觉概念知识，DetCLIPv3可以轻松地被适配以生成详细的物体描述。遵循[23, 51]的研究，作者在VG V1.2 [25]和VG-COCO [51]数据集上评估了密集字幕生成的性能。为了确保公平比较，作者在训练数据集上对作者的模型进行微调。类似于CapDet [38]，在微调期间，作者将作者的OV检测器转换为一个类无关的前景提取器，这是通过将所有前景物体的文本标签分配给概念'object'来实现的。表3将作者的方法与现有方法进行了比较。DetCLIPv3显著优于现有方法。_例如_，在VG上，作者使用Swin-T（第7行）和Swin-L（第8行）作为 Backbone 网络的模型，分别超过了之前最佳的方法GRiT [56]（第6行），提高了2.9 AP和4.2 AP。

Robustness to Distribution Shift

一个健壮的OV目标检测器应该能够在各个领域识别广泛的视觉概念。最近的视觉-语言模型CLIP [46] 通过学习大量的图像-文本对，在ImageNet变体[19, 20, 54]的域迁移中展示了卓越的泛化能力。同样，作者期望在OV检测中观察到类似的现象。为此，作者使用COCO-O [40] 来研究作者模型对分布变化的鲁棒性。表4将作者的方法与几种领先的闭集检测器以及开集检测器GLIP在COCO和COCO-O上进行了比较。由于COCO没有包含在作者的训练中，DetCLIPv3的性能落后于那些专门在它上面训练的检测器。然而，作者的模型在COCO-O上显著超过了这些检测器。例如，作者的Swin-L模型在COCO-O上达到48.8 AP，甚至超过了它在COCO上的性能（48.5 AP），并获得了最佳的有效鲁棒性分数+27.0。更多定性可视化结果请参考附录。

Transfer Results with Fine-tuning

表5探讨了通过在下游数据集上对DetCLIPv3进行微调来转移其能力，即LVIS minival [24]和ODinW [29]。对于LVIS，考虑了两种设置：(1) LVIS

{}^{\text{mini}}_{\text{base}}

：仅使用基础（常见和频繁）类别进行训练，如[43]中所做；以及(2) LVIS

{}^{\text{mini}}_{\text{all}}

：涉及使用所有类别进行训练。

DetCLIPv3在所有设定中一致地优于其同类产品。在ODinW13上，基于Swin-T的DetCLIPv3（71.1 AP）甚至超过了基于Swin-L的DetCLIPv2（70.4 AP）。在LVIS上，DetCLIPv3展示了出色的性能，例如，基于Swin-L的模型在LVIS

{}^{\text{mini}}_{\text{base}}

和LVIS

{}^{\text{mini}}_{\text{all}}

上均达到了60.5 AP，超过了预先用20亿伪标签数据训练的OWL-ST+FT [43]（在LVIS

{}_{\text{base}}^{\text{mini}}

上56.2 AP）一大截。这表明作者自动标注 Pipeline 构建的高质量图像-文本对有效地提升了学习效率。此外，作者观察到与[43]中类似的结论：在强大的预训练支持下，即使仅在基础类别上进行微调也能显著增强稀有类别的性能。这体现在Swin-L模型从表1第15行的49.8 AP

{}_{\text{rare}}

提升到表5的60.3 AP

{}_{\text{rare}}

上。

Ablation Study

DetCLIPv3的演变路线图。 表6探讨了DetCLIPv3的发展路线图，从 Baseline 模型到最终版本。作者的实验采用了一个带有Swin-T Backbone 网络的模型。对于OV检测器，作者在LVIS minival（第4.1节）和COCO-O（第4.3节）上评估了AP，对于字幕生成器，作者在VG（第4.2节）上报告了微调后的性能。作者的 Baseline （第1行）模型是去除了物体字幕生成器的OV检测器（如第3.1节所述），仅在Objects365 [50]上训练。这个模型能力有限，在LVIS上仅取得了30.8 AP的适中成绩。随后，作者引入了一系列有效设计：（1）融入更多的人工标注数据（第2行和第3行），即GoldG [24]和V3Det [55]，将LVIS AP显著提升到42.5。（2）引入图像-文本对数据，即来自GranuCap50M的60万样本（也是作者第3阶段训练使用的训练数据，见第3.3节），有效将LVIS AP进一步改进为45.3。更重要的是，它显著提升了模型的领域泛化能力，将COCO-O的AP从第3行的30.7提升到第4行的36.4。（3） 第5行进一步整合了物体字幕生成器，但没有了第2阶段的预训练。尽管没有引入新数据，它还是将LVIS AP提升到46.6。这种改进揭示了学习字幕生成器对OV检测的好处——学习为物体生成多样化标签鼓励了物体解码器提取更具判别性的物体特征。（4）整合第2阶段字幕生成器预训练高效地从GranuCap50M的大量图像-文本对中获取广泛的视觉概念知识。这种设计显著增强了字幕生成器的生成能力，将VG的AP从第5行的17.1提升到第6行的18.4。此外，它还将OV检测性能从在LVIS上的46.6 AP适度提升到47.0 AP。

图像-文本对的伪标记。 表7探讨了在利用伪标记的图像-文本对时两个关键因素：过滤阈值和数据量。作者在第一阶段训练中使用了Swin-T模型，并整合了伪标记数据。0.2的过滤阈值取得了最佳效果，而数据的不断增加也持续提高了OV检测的性能。尽管使用1200k数据获得了更好的结果，但考虑到效率，作者选择在第三阶段训练中使用600k数据。值得注意的是，在生成性任务中辅助字幕器的学习时，600k数据样本的有效性（表6第5行，46.6 AP）超过了没有字幕器辅助的1200k样本的结果（46.1 AP）。

Visualization

图1展示了DetCLIPv3在OV检测和目标标签生成方面的可视化结果。作者的模型展现出卓越的视觉理解能力，能够检测或生成广泛的视觉概念。更多可视化结果请参阅附录。

5 Limitation and Conclusion

限制。 对DetCLIPv3生成能力的评估尚不完整，因为现有的基准测试在有效评估生成检测结果方面存在不足。此外，DetCLIPv3当前的检测过程不支持通过指令进行控制。未来，重要的研究方向将是开发用于评估生成式开放词汇检测器的全面指标，并将大型语言模型（LLMs）整合到指令控制的开放词汇检测中。

结论。在本文中，作者提出了DetCLIPv3，这是一种创新的OV检测器，它能够基于类别名称定位目标，并生成具有层次性和多粒度的目标标签。这种增强的视觉能力使得更全面的细粒度视觉理解成为可能，从而扩展了OVD模型的应用场景。作者希望作者的方法为未来视觉认知系统的发展提供启发。

训练。 DetCLIPv3的训练涉及来自各种来源的数据。表8汇总了在不同训练阶段中使用的数据详细信息。由于不同数据类型的训练过程各不相同（例如，目标字幕器只接受图像-文本对数据作为输入），作者设计每个迭代的全局批次仅包含一种类型的数据。

对于开放词汇检测器的训练，遵循先前的DetCLIP工作[58, 60]，作者使用FILIP[59]语言模型的参数初始化文本编码器，并在训练过程中将学习率降低0.1，以保留通过FILIP预训练获得的知识。为了提高训练效率，作者将文本编码器的最大文本标记长度设置为16。

在训练目标描述器时，作者使用Qformer [27]的预训练权重来初始化描述器，而可变形[71]交叉注意力层则是随机初始化的。为了保留在Qformer [27]预训练期间获得的知识，目标描述器使用与BERT [10]相同的分词器来处理文本输入，这与采用CLIP [46]分词器的文本编码器不同。目标描述器的最大文本标记长度设置为32。

在每一个训练阶段，为了节省GPU内存，采用了自动混合精度[41]和梯度预训练权重[6]。表9总结了每个训练阶段的详细训练设置。

推理过程。 DetCLIPv3的OV检测器的推理过程遵循DINO [66]，其中每张图像的结果来自于300个具有最高置信度分数的目标 Query 的预测。对于在LVIS [18]数据集上的固定AP [9]评估，要求整个验证集中的每个类别至少有10,000个预测。为了确保每张图像有足够的预测数量，作者采用了类似于GLIP [29]的推理过程。具体来说，在为每个数据样本进行推理时，1203个类别被分成31个块，每个块的大小为40个类别。作者分别为每个块进行推理，并基于它们的置信度分数保留前300个预测。

在DetCLIPv3目标描述器的推理过程中，正如主论文中所描述的，对于每张图像，作者使用作者开发的名词概念语料库中最频繁的15k个概念作为文本 Query ，提取相似度最高的前100个前景区域。在目标描述器为这些区域生成描述性标签后，使用OV检测器对其置信度分数进行重新校准。然后对那些重新校准后分数高于0.05的区域执行一个类无关的非最大值抑制（NMS）操作，其结果作为预测输出。作者对目标描述器的推理设置了等于1的束搜索（beam search）大小。

微调。 作者在两个数据集上对DetCLIPv3进行微调，即LVIS [18] 和 ODinW13 [29]。表10和11分别总结了LVIS和ODinW13的详细微调设置。对于LVIS，当用基础类别进行微调时，在采样负概念时会排除新类别。对于ODinW13，类似于DetCLIPv2[60]，作者采用自动衰减的学习率计划。具体来说，当性能达到平台期并在容忍期

t_{1}

内持续时，作者将学习率降低0.1倍。如果在容忍期

t_{2}

内性能没有提升，作者则终止训练过程。

Appendix B Additional Data Pipeline Details

图5展示了DetCLIPv3自动标注数据流程的概览。

提示。 在这里，作者提供了每个步骤中使用的提示，包括用于VLLMs以及GPT-4的提示。

使用VLLM重制标题：作者采用Instruct-BLIP [7]对240K图像-文本对进行重新配文。为了利用原始标题文本中的信息，作者使用以下提示： “给定图像的噪声标题： {原始标题}， _编写图像的详细清晰描述”。

使用GPT-4进行实体提取：在这一步骤中，作者首先利用GPT-4从VLLM生成的标题中过滤掉非实体描述。使用的提示是：_“这是一张图片的标题：{caption}。提取与图像中可直接观察到的事实描述相关的部分，同时过滤掉提及推理内容、气氛/外观/风格描述以及历史/文化/品牌介绍等部分。只返回结果，不包含其他内容。如果你认为没有事实描述，只需返回'None'。” 随后，作者使用以下提示从过滤后的标题中提取关于目标实体的信息：_“你是一个AI，负责从大量图像标题中开发一个开集目标检测数据集，无法访问实际的图像。你的任务是按照以下原则准确地识别和提取这些标题中的'目标'：

'物体'在物理上是可触摸的：它们必须是可以在图像中视觉表示的具体实体。它们不包括以下内容：

抽象概念（例如“历史”、“文化”）或情感（例如“悲伤”、“快乐”）
对图像本身（例如“图像”、“图片”、“照片”）或相机（例如某物正对着“相机”）的元引用，除非它们专门指图像中的物理元素。
任何描述词（如“外观”、“气氛”、“颜色”）
事件/活动及过程（如“游戏”、“演讲”、“表演”）和特定事件类型（如“乡村风格婚礼”、“电影节”）
构图方面（如“透视”、“焦点”、“构图”）或视角/看法（如“鸟瞰图”）。

物体在视觉上是独特的：它们是独立的实体，可以从其环境中视觉上隔离开来。它们不包括环境特征（如“多彩环境”）和一般的位置/场景描述符（例如，“室内场景”，“乡村设置”，“晴天”，“黑白插图”）。在提取过程中遵循以下指南：

合并重复项：如果提取的多个“物体”指代字幕中的同一实体，将它们合并为一个，同时保留概念多样性。
对描述性变体进行分类：对于用形容词描述的“物体”，提供带形容词和不带形容词的两个版本。
识别更广泛的类别：为每个“物体”分配一个“父类别”。以下是你结果的编号列表格式：id. “带形容词的物体”， “不带形容词的物体”， “父类别”。你的回复应仅包含结果，不含多余内容。以下是字幕：{字幕}。

针对大规模标注的VLLM指令调整：在这个阶段，作者使用上面得到的字幕文本和物体实体信息来微调LLaVA [35] 模型。在这里，作者将前述信息组合成一个新的简洁提示，并构建如下问题-答案对：_问题：“从图像的噪声字幕：{原始字幕}，生成一个精炼的图像描述，并识别所有可见的‘物体’——图像中任何视觉和物理可识别的实体。记住以下指南：

从字幕中合并相似的‘物体’，保留概念多样性。
对于用形容词描述的‘物体’，提供带形容词和不带形容词的两个版本。
为每个‘物体’分配一个‘父类别’。以如下格式呈现结果：字幕：{字幕} 物体：{id. ‘带形容词的物体’，‘不带形容词的物体’，‘父类别’}。<图像标记>” 答案：字幕：{精炼的字幕} 物体：{实体信息} 在这里，VLLM接收图像标记<图像标记>和它们的原始字幕{原始字幕}作为输入，并学习生成精炼的字幕以及提取关于物体实体的信息。

可视化。 图2-a和2-b展示了通过作者提出的数据处理流程获得的细化标题和提取的实体信息。此外，图3显示了在第一阶段训练后，作者基于Swin-L的模型生成的边界框伪标签。

Appendix C More Qualitative Results

图4-a、4-b和4-c展示了DetCLIPv3的目标字幕生成器产生的多粒度目标标签的附加定性结果。在没有候选类别的情况下，DetCLIPv3的目标字幕生成器能够生成密集、细粒度、多粒度的目标标签，从而促进了对图像的更全面理解。

Appendix D More Experimental Results

表10：针对LVIS [18] 的详细微调设置。

表11：ODinW13 [29]的详细微调设置。

关于LVIS的更多结果。 为了全面评估DetCLIPv3的性能，表12提供了在LVIS上的标准平均精度（Average Precision, AP），并将其与在20亿图像-文本对上预训练的最新方法OWL-ST [43] 进行比较。具体来说，作者在LVIS minival [24] 和验证 [18] 数据集上评估了两种设置：零样本性能和经过在LVIS基础类别上微调后的性能。