开放词汇目标检测(OVD)已经通过视觉-语言模型(VLMs)来研究,以检测超出预训练类别的新颖物体。先前的方法通过使用带有额外'类别'名称的'积极'伪标签来提高检测器的泛化能力,例如袜子、iPod和鳄鱼。 为了在两个方面扩展先前方法,作者提出了检索增强损失和视觉特征(RALF)。作者的方法检索相关的'负类'并增强损失函数。同时,视觉特征也通过类的'文字化概念'进行增强,例如,穿在脚上、手持音乐播放器和锋利牙齿。 具体来说,RALF由两个模块组成:
RAL构成两个损失,反映与负词汇的语义相似性。此外,RAF使用大型语言模型(LLM)中的文字化概念增强视觉特征。 作者的实验证明了RALF在COCO和LVIS基准数据集上的有效性。作者在COCO数据集的新颖类别上取得了高达3.4 box
的改进,并在LVIS数据集上获得了3.6 mask
的增益。
开放词汇目标检测(OVD)旨在检测属于开放集类别的目标。这是一项具有挑战性的任务,因为新的类别在训练期间不会出现。预训练的视觉语言模型(VLMs)使检测器能够通过从互联网上大规模图像-文本对中学到的零样本视觉识别能力识别基本类别和新类别。例如,CLIP [20] 和 ALIGN [13] 广泛用于OVD以分类未见过的目标[9, 17, 29]。
知识蒸馏是将VLMs的知识转移到检测器的一种方法。这在文献中已被广泛探索。为了更有效的知识蒸馏,一些工作尝试在区域 Level 而不是图像 Level 匹配单词,以确保更好的对齐。为了提高对新类别的泛化能力,一些研究采用伪标签来扩展检测器的知识。伪标签(正类别)是为区域建议生成的,通过将其视觉特征与来自附加词汇集或标题的单词匹配。因此,附加词汇集仅关注'正'类别。作者相信,更多样化的词汇集,如'负'类别和用新技术表述的(视觉)概念,将为进一步改进OVD框架开辟道路。
为了研究尚未深入探索的方向,在本文中,作者提出了利用'负'类别和'表述概念'的方法,更有效地使用词汇集以提高对新类别的泛化能力。作者提出了一个新颖的框架——检索增强损失与视觉特征(RALF),它从大型词汇集中检索词汇和概念,并增强损失和视觉特征。RALF由两部分组成:检索增强损失(RAL)和检索增强视觉特征(RAF)。
给定真实标签,作者通过基于相似性从词汇库中检索构建难和易的负词汇。然后,RAL通过额外的损失优化真实标签与预定义词汇之间的距离。此外,作者利用大型语言模型(LLM)获取丰富信息,而不仅仅是单词单位。在LLM生成关于大型词汇的描述后,作者提取表示目标特征的表述概念细节,并将它们堆积在概念库中。在推理时,RAF用从概念库中检索到的表述概念增强视觉特征。然后,这些增强的特征被用于分类。为了验证RALF的有效性,作者在COCO和LVIS基准上进行了实验。总的来说,RALF提高了检测器的泛化能力。
作者的贡献有三方面:
,在LVIS的新类别上也达到了21.9 mask AP
。
预训练视觉语言模型。如CLIP [20]和ALIGN [13]这样的预训练视觉语言模型(VLMs)在大规模图像文本对数据集上通过对比学习,为视觉和语言模态的联合表示进行训练。预训练VLMs包括两个编码器——图像编码器和文本编码器,分别提取图像嵌入和文本嵌入。通过应用对比学习,它们可以在同一潜在空间中相互对齐。因此,预训练VLMs在泛化能力和迁移到各种下游任务方面具有优势。例如,CLIP [20]在广泛的图像文本对数据上进行预训练,在零样本图像分类任务上表现出令人印象深刻的性能。近来,由于CLIP的成功,有许多研究将VLMs引入到各种下游任务中,如图像分割[16, 23, 38]、图像生成[21, 30]和目标检测。
开放词汇目标检测。 目标检测任务是指在一个场景中检测一个目标并对检测到的目标进行分类的任务。一个代表性的研究,Fast R-CNN [8],使用CNN架构展示了出色的目标检测性能。然而,对于需要大量人工标注的目标检测任务存在局限性。提出了一种零样本目标检测方法,以确定检测器是否可以检测在学习期间未见过的类别。
近来,开放词汇目标检测(OVD)引起了关注。OVD通过使用如CC3M [26]这样的附加字幕数据进行学习,评估预测新类别的能力。由于使用大型数据集进行预训练的VLMs在各种下游任务的零样本表现良好,因此在OVD中通过预训练VLMs解决的方法已经得到了研究。最代表性的研究ViLD [9]使用了预训练VLMs之一的CLIP的知识,并学习了类别不可知的区域 Proposal ,以对未见类别进行良好表现。关于这一点的许多后续研究也已经进行,Object-Centric-OVD [24]提出了一种以目标为中心的对齐方法,以解决在将CLIP应用于OVD时出现的定位问题。
检索增强。 检索增强最初是在语言生成任务中引入的,以提高参数效率。RAG [15]介绍了结合参数化和非参数化内存访问的生成模型。最近,检索增强已经在许多视觉任务中得到利用。RDMs [1]建议高效地存储图像数据库,并使相对紧凑的生成模型条件化。EXTRA [22]提出了一种检索增强的图像字幕模型,通过利用跨模态表示来提高性能。与这些在生成任务中使用检索增强的方法不同,作者首次在OVD任务中应用了检索增强,据作者所知。
在本节中,作者提出了一个新框架RALF,它从大型词汇库中检索信息并增强损失和视觉特征。在作者深入探讨RALF之前,作者在第3.1节简要介绍了开放词汇目标检测任务。第3.2节描述了所提出方法的整体流程。作者的方法由两个模块组成:
这两个模块分别在第3.3节和第3.4节中介绍。
开放词汇目标检测(OVD)是一种先进的视觉识别任务,它扩展了传统目标检测器的能力,超越了预训练类别的限制。OVD旨在定位和分类广泛的目标,包括训练期间未遇到的类别。在OVD中,预训练类别和未见类别分别被称为基础类别
和新类别
。通常,OVD的方法利用预训练的区域 Proposal 方法,例如区域 Proposal 网络(RPN),进行类别无关(初始)定位。
在区域 Proposal 步骤之后,OVD方法利用预训练的视觉-语言模型以零样本学习的方式分类广泛类别。具体来说,对于给定的区域 Proposal
,这些方法提取区域嵌入
,并与类别
的文本嵌入计算相似性或进行零样本分类,其中
是文本编码器,
可以是基础类别或新类别,即
。除非明确说明,本文中的向量均为行向量。
作者提出了检索增强损失和视觉特征(RALF)的总体流程。
如图2所示,RALF包括两个模块:
在RAL中,作者定义了两个负词汇集
和
来训练目标检测器。它们是根据 GT 类别标签
与外部词汇库
中的词汇之间的语义相似性分数检索的。在RAF中,作者通过LLM提取与物体相关的概念,并检索它们以使用增强器
增强视觉特征
,以实现更好的分类。
遵循传统的OVD设置,作者的检测器用基本类别
的标注边界框进行训练。如图2a所示,训练过程中额外使用了检索增强损失。训练目标检测器的总损失定义如下:
其中
表示 Baseline 损失,
将在第3.3节中解释。作者利用获得的概念信息独立地训练RAF模块。如图2c所示,在推理时,RAF以插件方式增强视觉特征。RAL和RAF的详细解释将分别在3.3节和3.4节中介绍。
在作者的方法中,作者引入了检索增强损失(Retrieval-Augmented Losses, RAL),这是一个利用大型词汇库来增强检测器在基础和新颖目标类别间泛化能力的新框架。如Figure 3中描述的,作者的方法包括基于它们与 GT 类别的相似度创建不同的负词汇集,分为“困难”和“简单”两类。RALF用RAL训练检测器,这是通过困难负词汇和简单负词汇与 GT 框之间的三元损失建立的。
负检索器。 为了导出困难负词汇和简单负词汇,作者利用包含更广泛目标类别的大型词汇集。首先,作者从词汇集中去除冗余类别,并精简词汇库
,以防止检测器可能看到新颖类别
,即
。然后,作者使用相对相似度定义困难负词汇
和简单负词汇
。
具体来说,给定一个 GT 类别标签
,作者得到文本嵌入
。负检索器根据
和
之间的余弦相似度,从
中采样困难负词汇和简单负词汇。然而,作者观察到一些词汇对于任何基础类别都持续具有高(或低)相似度得分。
在这种情况下,这些词汇对于增强损失并不有用。为了缓解这个问题,作者采用了排名方差采样方案,该方案根据相似度测量的排名方差过滤掉词汇。具体来说,作者首先测量基础类别
与
中所有词汇之间的相似度。然后,给定
时
的排名定义为:
作者最终使用所有
计算
的方差。排名方差相对较低的词汇被移除。然后,根据相似度得分,为每个基础类别选择前
和后
的词汇作为困难负词汇和简单负词汇,分别。在每次训练迭代中,从
个词汇中随机选择
个词汇来增强损失。关于采样方案的更多细节将在补充材料中讨论。
难负样本和易负样本损失。 难负样本词汇和易负样本词汇分别表示为
和
。
由与真实标签
相似的词汇组成,而
则是与
最不相似的词汇。使用这两组负样本词汇与Triplet Loss相结合,作者提出了难负样本损失
和易负样本损失
。具体来说,作者首先定义了与真实嵌入
的平均余弦相似性如下:
其中
给定
个词汇。然后,难负样本损失
和易负样本损失
定义如下:
其中
和
是超参数,
和
表示边界。总之,难负样本损失
鼓励
与
的相似性高于
。易负样本损失
促使
相对于
展现出更高的与
的相似性。
作者引入了检索增强型视觉特征(RAF),通过每个目标类别的口头化概念来增强视觉特征,如图4所示。
概念存储。概念存储包含描述目标的一组特征(例如,颜色、大小、形状等)。
的特征是通过大型语言模型(LLM)使用“描述一下一个{词汇}看起来像什么。”这样的提示模板生成的,遵循[14]。注意,
不用于生成口头化概念。作者从LLM生成的描述中移除无意义的词(如介词),只在概念存储中有意义的名词块。
概念检索器。用于增强视觉特征的概念由概念检索器检索。概念嵌入
是从文本编码器
中获取的,带有概念存储中的概念。给定视觉特征
,概念检索器计算概念嵌入
和视觉特征
之间的余弦相似度。然后,它返回
个最相关的概念嵌入
和相应的分数
。
增强器。作者提出了一种增强器
,用检索到的概念来增强视觉特征
。令
表示
和
的组合。
计算如下:
其中
是一个线性投影。另一方面,
用检索到的概念进行增强。它是解码器的最终输出,具有 Query 嵌入
作为 Query 和
维的键和值
。
计算如下:
其中
. 这里CA表示跨注意力操作,而FFN代表前馈网络。最后,增强的视觉特征
通过将
的粗略特征和精细特征相加得到:
在测试时,如图1(c)所示,使用增强的视觉特征和测试类别的文本嵌入来计算辅助逻辑值
:
然后,将辅助逻辑值与
进行集成,以计算 Proposal
的最终分类的最终逻辑值
。逻辑值集成的细节在第4节中描述。
RAF训练的损失。 作者用区域 Proposal 的视觉特征对RAF进行了预训练。对于预训练,作者使用分类损失
和正则化损失
。作者首先定义区域 Proposal
的伪标签为
:
然后,使用伪标签,定义分类损失
为:
其中
是每张图像的 Proposal 数量,
是交叉熵损失。作者通过使用下面的正则化损失
鼓励增强的视觉特征
与原始视觉特征
相似:
最后,RAF训练的总损失
是方程(14)和方程(15)的组合,如下所示:
其中
和
是超参数。
在本节中,作者简要讨论了实验设置,包括数据集和实施细节。接下来,作者评估了RALF与各种 Baseline 的性能,并通过进一步分析研究了RALF。
数据集。作者在两个公共基准上评估RALF:COCO [18] 和 LVIS [10]。在开放词汇目标检测设置中,根据OVR-CNN [35],将COCO数据集分为48个基础类别和17个新颖类别。它包括118k张图像,其中107,761张用于训练,4,836张用于验证。参考ViLD [9],作者将LVIS数据集划分为866个基础类别和337个新颖类别。
对于这两个基准,作者在训练期间使用基础类别,然而新颖类别也用于推论。作者采用平均平均精度(mAP)作为评估指标。作者报告了COCO的AP
、AP
和AP
以及LVIS的AP
、AP
、AP
和AP。注意,在LVIS上报告了实例分割(mAP)结果。为了生成词汇库,作者采用V3Det [28]作为词汇集。
实施细节。作者使用预训练的CLIP [20]实施了RALF,使用ViT-B/32图像编码器主干和官方存储库中的文本编码器。请注意,在训练期间,作者冻结了图像和文本编码器中的所有参数。此外,作者使用GPT-3 [2] DaVinci-002生成来自RAF的描述,作为一个大型语言模型。对于COCO和LVIS,作者分别使用带有ResNet-50 [12]主干的Faster R-CNN [25]和带有ResNet-50 FPN主干的Mask R-CNN [11]。
在训练RAF时,作者使用来自OADP [29]的区域 Proposal 。作者将作者的 Baseline 设置为OADP [29],Object-Centric-OVD [24]和DetPro [6]。由于RALF通过插件方式增强了泛化能力,作者将RALF构建到 Baseline 中。在所有实验中,作者在NVIDIA RTX-3090 4个GPU上进行训练和评估。更多实施细节,包括超参数,在补充材料中讨论。
RAF中的对数融合。由于每个 Baseline 的对数范围不同,最终的对数
计算如下:
其中
表示sigmoid函数。在将辅助对数添加到
时,没有使用所有辅助对数的值,只考虑了COCO上的top-1和LVIS上的top-10或20个数字,考虑到测试类别的数量。
作者在开放词汇目标检测(OVD)设置中对COCO和LVIS基准进行了RALF评估,并与各种 Baseline 进行了比较。
总体结果如表1和表2所示。
COCO基准。 如表1所示,当将RALF插入到所有评估指标的基础模型中时,RALF显示出极大的性能提升。将RALF插入到Object-Centric-OVD [24]中,AP
显著提高了4.7,达到了最新的成果。此外,RALF不仅在新型类别上超过了Object-Centric-OVD,而且在基础类别和所有类别上也超过了,分别实现了0.3 AP
和1.5 AP
的改进。正如在Object-Centric-OVD中观察到的倾向,在OADP [29]上实施RALF也显示出显著的有效性。结果显示,新型、基础和所有类别的性能分别提高了3.4 AP
、1.2 AP
和1.8 AP
。
LVIS基准。 为了验证作者的方法在各种情况下都能提高性能,作者在LVIS基准上进行了实验,并增加了另一个 Baseline - DetPro [6]。结果如表2所示。总体而言,RALF在所有 Baseline 上将新型类别的检测能力提高了最多2.0 AP
。尽管Object-Centric-OVD [24]除了AP
之外略有下降,但RALF在DetPro和OADP [29]上改进了所有指标。总之,这些结果表明RALF提高了泛化能力。
正如在第3.2节中讨论的,RALF由两个模块组成——RAL和RAF。作者对RAL和RAF进行了消融研究,以验证每个模块在COCO和LVIS基准测试上的有效性。
RAL的有效性。作者在表3和表4中展示了RAL的结果。
从结果来看,RAL在所有 Baseline 上都提高了性能增益。在COCO上,RAL的改进高达1.3 AP
,至少有1.0 AP
。有趣的是,RAL表现出非凡的泛化能力,特别是在COCO的基础类别中,没有性能下降。尽管在LVIS上的AP
、AP
和AP略有下降,但新类别的性能显著提高了最多3.2 AP
。
RAF的有效性。作者将RAF插入到几个 Baseline 中,并评估性能以验证RAF是否有效。表3和表4分别展示了RAF在COCO和LVIS上的性能。在所有 Baseline 上都有显著的改进。特别是,在COCO上,对于OADP和Object-Centric-OVD的新类别,RAF分别提高了预测能力1.5 AP
和0.8 AP
。在没有基础类别性能下降的情况下,LVIS上新类别的性能提高了最多1.4 AP
。
从表3和表4的结果来看,无论 Baseline 如何,RAL和RAF都增强了新类别的预测,同时保持了基础类别的预测能力。RAL和RAF的组合,即RALF,与单独使用每个模块相比,显示出显著的性能增益。总之,RAL和RAF单独显示出增强的性能,它们的组合显示了卓越的泛化能力。### 对RALF的分析
简单和困难负样本。作者评估了处理简单和困难负样本的各种方法的效果。首先,作者只使用一种类型的负样本;“仅简单负样本”和“仅困难负样本”。其次,作者将简单和困难负样本合并为一个负样本组,称为“合并”。与RAL不同,在“合并”设置中,没有应用方程式(6)中使用两种类型负样本的
。表5显示上述 Baseline 的性能均不如作者的方法RAL。总的来说,作者区别处理简单和困难负样本的方法最能提升性能。
作者通过可视化检测结果来验证RALF能够很好地捕捉到新类别。作者在图5的顶部和底部分别比较了作者的一个 Baseline (即OADP)和OADP + RALF。图像中的每个框代表框的预测结果。从定性结果来看,RALF比 Baseline 更好地捕捉到新类别,这意味着RALF提高了泛化能力。
在本文中,作者提出了检索增强损失和视觉特征(RALF),它从大型词汇集中检索信息并增强损失和视觉特征。为了优化检测器,作者添加了检索增强损失(RAL),它从预定义的词汇库中带来困难样本和容易样本的负面词汇,并反映出与真实标签的语义相似性。
此外,检索增强视觉特征(RAF)用来自大型语言模型生成的概念增强视觉特征,并提高了泛化能力。总之,RALF结合了这两个模块,并且可以轻松地插入到各种检测器中,显著提高了不仅基础类别的检测能力,还包括新颖类别的检测能力。
在本节中,作者提供了主论文中没有提到的每个RAL和RAF的超参数设置和实施细节。
在应用排名方差采样方案后,作者将
设置为2,000,将
设置为10,以将词汇分为难负例和易负例。不同超参数根据基准和RAL的数据集在表A1中展示。
当作者从概念库中引入相关概念时,作者将概念的数量
设为50。在增强器
中,解码器层的数量
设为6。每一个解码器层包括具有8个 Head 的交叉注意力(CA)和具有2,048维度的前馈网络(FFN)。位置嵌入
和类型嵌入
以及
是用随机值初始化的。增强器
的总参数量为51M。在RAF训练期间,作者使用
为5.0和
为1.0。
基准方法与RALF在正文第4.2节中的性能数据是作者为了消融研究的公平性而自行复现的结果。作者检查了执行环境可能导致的性能变化。因此,作者进一步验证了当RAF应用于基准方法作者官方提供的模型预训练权重时,性能如何变化。如表格A2所示,RAF在COCO数据集上展示了显著的性能提升。
超参数 of
。如图A1所示,作者在OADP [29] 中提供了对控制
的超参数在COCO数据集上的分析。为了进行这项分析,作者将
,
和
固定为 (0, 1, 1),而将
,
和
分别固定为 (1, 10, 1)。对于6个超参数,作者使用了值 (0.1, 1, 10, 100) 进行分析。当
从1增加到10时,作者观察到了轻微的改进,然而,总体上存在性能下降的趋势。
在1时表现出暂时的性能增加,随后出现下降。与较低值相比,
在较高值时显示出更好的性能。至于
,
和
,作者发现即使值变化,它们的性能也很稳健。
探索
。表A3显示了在RAL中,每次迭代基于随机或相似性获取
个负词汇中的
个的差别。相似性在AP
和 AP
上的性能优于 Baseline ,然而,由于缺乏随机性,观察到在
上的性能较低。采用随机选择
个负词汇中的
个显示出对新类别最好的性能。
采样方案。如正文第3.3节所述,RAL通过从词汇库中对负检索器进行排名方差采样来定义难和易负词汇。为了确定排名方差采样方法的最优性,作者比较了各种采样方案——随机采样和基于相似度的采样,这些结果在表A4中报告。随机采样方案在不考虑其他因素的情况下随机提取词汇,而基于相似度的采样方案反映了
与 GT 标签之间的余弦相似性。实验结果表明,在多种采样方案中,排名方差采样不仅在
上表现出优越的性能,而且在
上也表现出卓越的性能。
RAF中的超参数
。表A5和表A6分别显示了在COCO和LVIS数据集上,在RAF中增强视觉特征时使用的
对性能变化的影响。作者将
默认设置为50。当
时,在COCO上观察到最佳性能。在LVIS上,不同
值的性能变化很小。结果表明,作者的方法对
的选择是鲁棒的。
大词汇量的规模。如正文第3.3节所讨论的,RALF使用大型词汇集来构建词汇库。作者设置实验来分析词汇量的有效性。对于所有实验,作者采用包含13,204个词汇的V3Det作为词汇集。在从词汇库中检索难和易负样本之前,作者从词汇集中排除不必要的元素,即新类别和案例重叠,来构建词汇库。通过这个过程,作者从V3Det获得了13,064个词汇。为了检验词汇量是否影响性能,作者在COCO基准上通过将词汇量减少到40%和70%来进行实验。结果如表A7所示。从结果中,作者观察到当词汇量为100%时,性能优于40%或70%时。
使用BERT检索负词汇表。 在这项工作中,根据RAF中CLIP文本嵌入之间的余弦相似度检索硬负词汇和易负词汇。在检索负词汇时,也可以使用语言模型(LM)的嵌入而不是CLIP。作者使用语言模型BERT [5]提取关于基本类别和大词汇集的嵌入,然后根据嵌入之间的余弦相似度检索硬负词汇和易负词汇。表A8展示了CLIP和BERT的比较结果。BERT在新型类别上的性能较低,但与 Baseline 相比,
提高了0.7。
[1].Retrieval-Augmented Open-Vocabulary Object Detection.