MR-GDINO: Efficient Open-World Continual Object Detection—— 高效开放世界持续目标检测
这篇文章提出了一种名为MR-GDINO的开放世界持续目标检测方法,旨在解决开放世界检测器在持续学习过程中对已见类别和未见类别的灾难性遗忘问题。文章的主要内容和贡献如下:
-
问题定义:提出了开放世界持续目标检测任务,要求检测器在持续学习过程中同时保留已学习的旧类别、适应新类别,并保持对未见类别的检测能力。
-
基准构建:提出了一个名为OW-COD的基准,用于评估检测器在持续学习场景下对已见和未见类别的抗遗忘能力。该基准包含少样本训练数据和大规模开放世界评估数据。
-
方法提出:提出了MR-GDINO方法,通过记忆和检索机制来缓解灾难性遗忘。MR-GDINO使用一个可扩展的记忆池来缓存每个学习步骤中的新概念和视觉-语言交互参数,并在推理时自适应地检索最佳记忆以进行检测。
-
实验验证:通过实验验证了MR-GDINO的有效性。实验结果表明,MR-GDINO在少样本持续适应下显著优于现有的持续检测器,尤其是在已见和未见类别上的抗遗忘能力表现突出。
-
主要贡献:
-
提出了OW-COD基准,用于评估开放世界持续目标检测器的性能。
-
提出了MR-GDINO方法,通过记忆和检索机制实现了高效、可扩展的开放世界持续检测。
-
实验表明,MR-GDINO仅激活了0.1%的额外参数,便在已见和未见类别上实现了最先进的性能。
-
这篇文章通过提出新的任务、基准和方法,解决了开放世界持续目标检测中的灾难性遗忘问题,展示了MR-GDINO在少样本持续学习中的强大性能。这里是自己的论文阅读记录,感兴趣的话可以参考一下,如果需要阅读原文的话可以看这里,如下所示:
官方项目地址如在这里,如下所示:
摘要
开放世界(OW)识别和检测模型展示了强大的零样本和少样本适应能力,激发了它们在持续学习方法中作为初始化的使用,以提高性能。尽管在已见类别上取得了令人鼓舞的结果,但由于灾难性遗忘,这些模型在未见类别上的能力大幅退化。为了解决这一挑战,我们提出了开放世界持续目标检测任务,要求检测器在持续学习场景中泛化到旧类别、新类别和未见类别。基于此任务,我们提出了一个具有挑战性但实用的OW-COD基准,以评估检测能力。目标是激励OW检测器在少样本适应下同时保留已学习的类别、适应新类别,并保持开放世界能力。为了减轻未见类别的遗忘,我们提出了MR-GDINO,通过记忆和检索机制在高度可扩展的记忆池中构建了一个强大、高效且可扩展的基线。实验结果表明,现有的持续检测器在已见和未见类别上都存在严重的遗忘问题。相比之下,MR-GDINO仅激活了0.1%的额外参数,便大幅减轻了遗忘,并在旧类别、新类别和未见类别上实现了最先进的性能。
图1. (a) 预训练的开放世界(OW)检测器[34]在未见数据上表现出强大的泛化能力,但无法从少样本标注中受益。(b) 基于OW检测器构建的持续检测器[8]在持续学习下对已见数据的mAP有所提升,但在未见对象上存在遗忘问题。(c) 我们提出的基于记忆和检索机制的OW持续检测器MR-GDINO在提升已见类别检测能力的同时,保留了对未见类别的开放世界检测能力。
1. 引言
开放世界(OW)识别和检测模型[2, 41, 50, 57, 62, 63]在有效识别和定位广义对象[17, 32, 52, 61]方面取得了显著进展。通过学习大量语义丰富的数据[3, 25, 26, 32, 44, 52, 60, 65],即使在没有未见类别的边界框监督的情况下,OW模型(例如目标检测网络)在开放世界场景中的零样本学习范式(例如图1(a)中的零样本Grounding DINO)下也能很好地泛化。得益于检测器的高度泛化特征表示,这些检测器可以通过多样本或少样本微调[7, 18, 21, 29, 34]适应新类别,从而在目标类别上表现更好。
通过顺序重复微调过程,可以将更新的OW检测器表述为持续学习范式[55, 66]。这种表述比传统的开放世界学习[30]或持续学习[66]更直观且更实用,原因有二。首先,预训练的开放世界(OW)检测器提供了支持零样本学习和快速适应的鲁棒初始表示。其次,OW检测器设计用于应对各种分布外场景,但仍然会因领域偏移[5, 39, 47]和先前未见类别[16, 23, 49, 51]而出现性能下降。具有快速适应能力的模型可以有效解决这一问题,增强在实际部署条件下的性能。因此,我们预期OW检测器将保留开放世界学习的优势,并在已知和新类别上展示出强大的泛化能力。
如图1(b)所示,先前关于OW检测器[34]在持续学习中的研究[8, 29, 30, 34]使特征表示严格适应目标类别领域[9, 18],并破坏了原始对齐良好的视觉-语言表示。尽管在已见类别上比零样本OW检测器表现更好,但传统的持续学习框架仍然存在对先前已见类别的灾难性遗忘问题。此外,在对已见类别进行持续适应后,所获得的检测器对未见类别的检测能力退化。这一限制制约了OW检测器在现实场景中的适用性。为了解决这一挑战,我们的研究追求两个目标:1)评估不同学习框架下OW检测器的灾难性遗忘问题,2)开发专门为OW检测器设计的持续学习策略,以实现对已见和未见类别的有前景的检测能力。
为此,我们提出了开放世界持续目标检测任务,要求优化的开放世界检测器在持续少样本适应下同时保留旧类别的知识、适应新类别,并保持对未见类别的检测能力。由于缺乏适当的评估工具,基于此任务,我们提出了一个具有挑战性但实用的基准OW-COD,专门设计用于评估OW检测器在持续学习框架下对旧类别、新类别和未见类别的抗灾难性遗忘能力。具体来说,OW-COD包括两组数据。前者是来自不同领域[29]的少样本训练数据及其对应的评估样本,这些数据按顺序用于通过持续学习范式优化OW检测器,并在类别增量设置下评估旧类别和新类别的检测性能。后者是大规模开放世界目标检测评估数据[17],用于评估未见类别的检测准确性,以对抗灾难性遗忘。结合对已见和未见类别的评估,符合我们任务的目标,并为开放世界检测场景下的持续学习框架提供了全面的基准。
基于OW-COD基准,我们构建了一个强大的基线方法来实现任务目标。基于先前的研究[13, 29],我们认为显式的视觉-语言交互模块是开放世界检测的关键组件。为了增强这些模块的抗灾难性遗忘能力,以实现更好的未见类别检测能力,我们为OW-COD基准提出了一个强大的基线MR-GDINO,通过记忆和检索机制实现高度可扩展的开放世界持续目标检测方法。具体来说,MR-GDINO采用了一个可扩展的记忆池,有效地缓存了来自持续学习步骤的新概念和视觉-语言交互的参数三元组。在推理过程中,MR-GDINO能够自适应地检索最佳参数三元组,以检测先前学习过的、新适应的或开放世界场景中的对象。记忆和检索机制确保了MR-GDINO的灵活性、可扩展性和性能,从而保留了对旧类别、新类别和开放世界未见类别的检测能力。
我们在提出的OW-COD上进行了广泛的实验,比较了不同的持续目标检测框架和MR-GDINO。如图1(c)所示,仅激活少量额外参数的MR-GDINO在少样本持续适应下大幅超越了GDINO在已见类别上的表现。此外,得益于强大的检索机制,MR-GDINO在未见类别和已见类别上同时实现了有前景的性能。
总之,我们的贡献如下:
-
我们提出了OW-COD,一个具有挑战性但实用的基准,用于评估OW检测器在少样本持续适应下对已见和未见类别的检测能力。
-
我们提出了MR-GDINO,一个通过记忆和检索机制在高度可扩展的记忆池中构建的强大、高效且可扩展的OW持续检测器。
-
通过仅激活0.1%的额外参数,MR-GDINO有效提高了在少样本适应下对持续已见类别的检测能力,同时确保了对开放世界检测能力的不遗忘。
2. 相关工作
2.1 开放世界目标检测
开放世界(OW)目标检测[2, 29, 40, 50, 63]旨在开发能够在现实场景中识别已见和未见类别的最佳检测器,通过大量语义丰富的多模态数据[3, 26, 41, 44, 52, 56, 60]实现。OW检测器设计中的一个关键组件是视觉-语言(VL)交互模块[29, 34, 50],它将视觉特征与文本嵌入联系起来,影响检测能力。OW检测器大致分为基于匹配的检测器[56, 58],它们使用预训练的文本嵌入来识别定位对象,以及基于融合的检测器[29, 34, 50, 63],它们结合了注意力模块[29, 34]或排名门[50]来合并视觉和语言特征以进行准确分类。然而,很少有研究[8]探讨OW检测器在持续适应下的灾难性遗忘问题。相比之下,OW-COD在持续适应中研究了这一问题,MR-GDINO确保了对已见和未见类别的有前景的能力。
使用OW检测器进行少样本目标检测。我们的工作与少样本目标检测有相似之处。预训练的OW检测器[34, 53]可以使用少样本训练样本[11, 22, 53]快速适应目标领域以获得更好的性能。然而,这通常会导致对未见类别的泛化能力较差[8]。相比之下,MR-GDINO在持续少样本适应期间展示了对已见和未见类别的鲁棒性能。
2.2 持续目标检测
持续目标检测(COD)[12, 35, 64]旨在学习能够纳入新类别同时保留先前类别知识的检测器。早期的方法如ILOD[45]使用伪标签蒸馏来解决灾难性遗忘[31, 42],最近的工作改进了架构和训练策略[14, 35, 46, 64]。然而,很少有研究[8]关注OW-COD。相比之下,我们的MR-GDINO引入了一种基于检索的[9, 55]方法,用于使用预训练的OW模型[34, 50]进行持续少样本适应,防止遗忘并将COD扩展到实际场景。
3. 开放世界持续目标检测
3.1 任务定义
3.2 基准构建
3.3 OW-COD的评估指标
平均精度(Average Precision)。根据持续目标检测[8, 12, 35, 64]和开放世界目标检测[2, 29, 40, 50, 63]的工作,我们报告每个子集的平均精度(mAP),以定量评估在持续学习范式下学习的开放世界(OW)检测器的性能。具体来说,提供了每个子集的平均精度(AP),以评估在少样本持续适应后持续OW检测器的检测性能。此外,报告了先前学习过的、新见到的和未见类别的平均AP,以总结整体性能。
这种排名的优点在于,只有当检测器在已见和未见类别上都表现良好时,才能获得更高的排名,从而强调其在减轻旧类别和新类别的灾难性遗忘方面的能力。
3.4 与同类任务的比较
与COD的比较。COD[8, 12, 35, 64]通常通过将整个数据集(例如COCO[32])的注释划分为标签集组来分割注释,这并不实际,因为新类别通常出现在未见场景中[49, 51],并且在注释过程中通常会对已见图像进行完全标注[32, 44, 52]。MR-GDINO避免了这种不规则场景。此外,随着OW模型在持续学习中的使用日益增多[55, 59],OW-COD强调了对未见类别的抗遗忘能力。
与OWOD的比较。OWOD[2, 29, 40, 50, 63]可以被视为我们任务的零样本特例。相比之下,OW-COD同时强调了对旧类别、新类别和未见类别的抗遗忘能力,这很大程度上要求OW检测器的泛化能力。
与Deng等人的比较。Deng等人[8]对开放世界持续学习进行了初步研究。然而,他们的方法有两个主要缺点。首先,任务增量评估对于实际应用来说不切实际,并且过度简化了持续开放世界(OW)检测器的挑战。其次,他们使用COCO[32]进行OW评估是有限的,因为它仅包含80个常见类别,这些类别在持续学习步骤中频繁出现,从而降低了任务的复杂性。
4. 提出的方法
4.1 MR-GDINO概述
4.2 概念和交互记忆机制
受少样本学习[9, 24, 67]和持续学习[10, 55, 59]中参数高效微调技术的启发,MR-GDINO利用参数高效模块作为记忆单元(即概念记忆和视觉-语言(VL)交互记忆),为持续添加的类别构建最佳记忆。
4.3 记忆检索机制
这种设计确保了当出现未见对象时,MR-GDINO能够使用预训练的OW检测器来检测野外对象,从而保留对开放世界未见类别的检测能力。
4.4 MR-GDINO的训练
在训练过程中,预训练的OW检测器的参数被冻结,以保留鲁棒的特征表示[9, 24, 55],而只有概念和VL交互记忆被优化。具体来说,为了保持来自冻结fT的一致文本嵌入分布以进行稳定训练,记忆训练分为两个阶段。在第一阶段,MR-GDINO冻结VL交互记忆并优化概念记忆以适应新类别。在第二阶段,更新后的概念记忆被冻结,并优化交互记忆以精炼视觉-语言关系。值得注意的是,两种记忆的联合训练可以达到相似的性能,如第5.4节所述。
训练目标。与之前的工作[12, 35]不同,MR-GDINO没有使用专门为持续学习设计的额外损失。对于边界框回归,MR-GDINO在每个训练步骤中最小化L1损失和GIoU损失[43]。对于对象分类,使用焦点损失[33]来增强识别性能。
4.5 与同类方法的比较和优势
如表1所示,MR-GDINO在三个方面表现出色。在灵活性方面,它通过激活参数选择的灵活记忆检索优于CoOp和CL-DETR。在可扩展性方面,MR-GDINO通过可扩展的记忆池超越L2P[55],保留并整合知识。最后,在效率方面,MR-GDINO利用参数高效微调,优于传统的全微调方法[4, 35, 64]。这些优势确保了对旧类别、新类别和未见类别的强大性能。
5. 实验
我们将MR-GDINO与零样本GDINO[34]、CoOp[67]、L2P[55]、Adapter[20]和ZiRa[8]进行比较。所有方法都设计用于持续或快速适应。
5.1 实现细节
我们使用Swin-T[36] Grounding DINO[34]作为MR-GDINO和对比方法的预训练OW检测器。对于OW-COD的持续训练,我们按照子集的字典升序优化OW检测器,并在没有任何测试时间增强的情况下评估训练后的检测器在旧类别、新类别和未见类别上的性能。对于MR-GDINO,我们设置了默认的提示长度为10,LoRA[21]瓶颈维度为8。我们使用AdamW[38]和余弦学习率调度器[15, 37]来优化MR-GDINO,权重衰减为1e-2,每个GPU的批量大小为1。初始学习率候选为{1e-1, 4e-2, 1e-2, 1e-3, 1e-4},训练轮数范围为{1∼10}。我们进行网格搜索[27]以找到每个步骤的最佳超参数。默认情况下,τ设置为0.89。基线方法使用其默认超参数构建和优化。由于原始GDINO实现中缺少LVIS评估工具包,我们实现了相应的工具包,以公平评估所有方法在旧类别、新类别和未见类别上的性能。
5.2 与最先进方法的比较
表2展示了MR-GDINO与所有对比方法在不同少样本持续适应下的比较。在所有对比方法中,只有ZiRa[8]在10-shot持续适应后在上超越了ZS GDINO 3.1分,而其他方法未能超越GDINO。对于未见类别,只有基于Adapter[20]的持续OW检测器实现了可比但较低的mAP,所有其他方法都遭受了显著的灾难性遗忘。这些发现强烈支持我们的观点,并强调了OW-COD的重要性。相比之下,MR-GDINO在10-shot训练下实现了51.9 和20.7 。此外,即使在1-shot持续学习设置中,MR-GDINO仍然实现了46.7的已见mAP,并且在未见mAP上仅下降了0.1分,仍然大幅超越了所有对比方法。这些有前景的结果表明,MR-GDINO可以大幅提高旧类别和新类别的检测性能,同时保持对未见类别的鲁棒检测能力。我们还调查了每个训练步骤中的遗忘率,见补充材料。此外,尽管ZiRa和Adapter在已见和未见类别上展示了改进的抗遗忘能力,但它们的平均排名仍然受到已见和未见类别之间不平衡性能的影响。相比之下,MR-GDINO在排行榜上以1.3的排名第一,突显了其在旧类别、新类别和未见类别上的平衡和卓越性能。
定性结果。此外,我们展示了ZS GDINO[34]、ZiRa[8]和MR-GDINO的定性结果,如图4所示。值得注意的是,MR-GDINO为旧类别和新类别生成了具有更高置信度的准确边界框。此外,MR-GDINO在生成未见类别的准确边界框方面优于ZiRa。这些结果进一步证实了MR-GDINO的有效性。更多定性结果见补充材料。
5.3 MR-GDINO可以减轻遗忘类别
基于在已见和未见类别上的有前景的抗遗忘能力,可以利用MR-GDINO来减轻微调中的“遗忘”类别。具体来说,我们在COCO[32]上完全微调GDINO[34],并在表3中展示了相应的评估结果。尽管在COCO上的检测性能提高到57.3 mAP,但在13个子集中的6个子集上的检测性能下降,这可以被视为遗忘的未见类别。通过在GDINO(COCO-ft)上采用MR-GDINO,上述子集的检测性能有所提高,并达到了54.5 APseen。同时,由于COCO[32]和LVIS[17]在图像领域有大量重叠,GDINO(COCO-ft)的APunseen由于完全微调而增加到23.6。与GDINO(COCO-ft)相比,采用MR-GDINO的GDINO保持了相同的APunseen。上述结果进一步验证了MR-GDINO在减轻遗忘方面的有效性。
5.4 经验分析
5.4.1 每个组件的消融研究
5.4.2 θinc插入层数的影响
接下来,我们调查了θincθinc插入层数的影响,相应结果如表5所示。通过在更多层中插入θinc,APold从44.4逐渐增加到51.3,同时保持相同的APunseen。这些结果表明,在更多VL交互层中插入θinc可以带来更好的性能,且参数增加可忽略不计。
5.4.3 解耦训练或联合训练
5.4.4 与Oracle检索的性能差距
6. 结论
我们提出了开放世界持续目标检测,要求检测器在旧类别、新类别和未见类别之间进行泛化。为了评估现有持续学习方法下的OW检测器,我们提出了OW-COD,一个激励OW检测器保留旧类别、适应新类别并保持开放世界检测能力的基准。为了解决未见类别的灾难性遗忘问题,我们提出了一个强大的基线MR-GDINO,一个利用记忆和检索机制在紧凑记忆池中构建的可扩展开放世界目标检测框架。我们的结果表明,MR-GDINO仅激活了0.1%的额外参数,便大幅减轻了灾难性遗忘,并在OW-COD上实现了最先进的性能。