MR-GDINO: Efficient Open-World Continual Object Detection
摘要
开放世界(OW)识别与检测模型展现出了强大的零样本和少样本适应能力,这启发了人们将其作为初始化方法应用于持续学习方法中以提高性能。尽管在已见类别上取得了令人鼓舞的结果,但由于灾难性遗忘,这些模型在未见类别上的OW能力却大打折扣。为了应对这一挑战,我们提出了一个开放世界持续目标检测任务,该任务要求检测器在持续学习场景下能够泛化到旧类别、新类别和未见类别。基于这一任务,我们构建了一个具有挑战性但实用的OW-COD基准,以评估检测能力。我们的目标是激励OW检测器在少样本适应下同时保留已学类别、适应新类别,并保持开放世界能力。为了缓解未见类别的遗忘问题,我们提出了MR-GDINO,这是一种通过高度可扩展的内存池中的内存和检索机制实现的强大、高效且可扩展的基线方法。实验结果表明,现有的持续检测器在已见和未见类别上都存在严重的遗忘问题。相比之下,MR-GDINO仅激活了 0.1 % 0.1\% 0.1%的额外参数就大大缓解了遗忘问题,在旧类别、新类别和未见类别上均取得了最优性能。代码可在https://mIsaka.moe/owcod/获取。
- 引言
开放世界(OW)识别与检测模型[2, 41, 50, 57, 62, 63]在有效识别和定位具有不同粒度[28, 54]的广义对象[17, 32, 52, 61]方面取得了显著进展。通过学习丰富的语义数据[3,25,26,32,41,44,52,60],即使没有未见类别边界框的监督,OW模型(例如目标检测网络)也能在开放世界场景下的零样本学习范式中很好地泛化(例如图1(a)中的零样本Grounding DINO用于OW)。得益于检测器高度泛化的特征表示,这些检测器还可以通过多样本或少样本微调[7, 18, 21, 29, 34]适应新类别,从而在目标类别上表现更好。
通过顺序重复微调过程,可以将更新后的OW检测器制定为持续学习范式[55, 65]。这种制定方式相较于传统的开放世界学习[30]或持续学习[65]在两个方面更加直观和实用。首先,预训练的开放世界(OW)检测器提供了一个稳健的初始表示,支持零样本学习和快速适应。其次,OW检测器旨在应对各种分布外场景,但仍会因域[5, 39, 47]和未见类别[16, 23, 49, 51]的变化而导致性能下降。具有快速适应能力的模型可以有效解决这一问题,提高在实际部署条件下的性能。因此,我们预计OW检测器将保持开放世界学习的优势,并在已知和新颖类别中展现出强大的泛化能力。
如图1(b)所示,先前关于持续学习中OW检测器[34]的研究[8, 29, 30, 34]使特征表示严格适应目标类别域[9, 18],并打破了原始对齐良好的视觉-语言表示。尽管在已见类别上取得了比零样本OW检测器更好的性能,但传统的OW检测器持续学习框架仍会对已见类别产生一定程度的灾难性遗忘。此外,在对已见类别进行持续适应后,所得检测器的未见类别检测能力会退化。这一局限性限制了OW检测器在现实场景中的应用。为了应对这一挑战,我们的研究追求两个目标,包括:1)评估OW检测器在不同学习框架中的灾难性遗忘情况;2)为OW检测器开发专门的持续学习策略,以在已见和未见类别上实现出色的检测能力。
为此,我们提出了开放世界持续目标检测任务,该任务要求优化的开放世界检测器在持续少样本适应下同时保留旧类别的知识、适应新类别,并保持对未见类别的检测能力。由于缺乏适当的评估工具包,基于这一任务,我们提出了一个具有挑战性但实用的基准OW-COD,该基准专门设计用于评估OW检测器在持续学习框架中针对旧类别、新类别和未见类别的抗灾难性遗忘能力。具体而言,OW-COD包括两组数据。前者是来自不同域[29]的少样本训练数据及其对应的评估样本,这些数据按顺序通过持续学习范式用于优化OW检测器,并在类别增量设置下评估旧类别和新类别已见类的检测性能。后者是大规模开放世界目标检测评估数据[17],用于评估未见类别检测精度以对抗灾难性遗忘。对已见和未见类别的评估组合符合我们任务的目标,并为开放世界检测场景下的持续学习框架提供了一个全面的基准。
基于OW-COD基准,我们构建了一种强大的基线方法来实现我们任务的目标。基于先前的研究[13, 29],我们认为显式视觉-语言交互模块是开放世界检测的关键组件。为了增强这些模块对未见类别检测能力的抗灾难性遗忘能力,我们为OW-COD基准提出了一个强大的基线MR-GDINO,这是一种通过内存和检索机制实现的高度可扩展的开放世界持续目标检测方法。具体而言,MR-GDINO采用了一个可扩展的内存池,该内存池能够高效地缓存来自持续学习步骤的新概念和视觉-语言交互的参数三元组。在推理期间,MR-GDINO能够自适应地检索最优参数三元组来检测之前学习、新适应或开放世界场景中的对象。内存和检索机制确保了MR-GDINO的灵活性、可扩展性和性能,从而保留了旧类别、新类别和未见开放世界类别的检测能力。
我们针对所提出的基于不同持续目标检测框架和MR-GDINO的OW-COD进行了大量实验。如图1©所示,MR-GDINO在仅激活极少数额外参数的情况下,在仅通过少量持续适应的已见类别上大幅超越了GDINO。此外,得益于稳健的检索机制,MR-GDINO能够在未见类别和已见类别之间同时实现优异的性能。
综上所述,我们的贡献如下:
- 我们提出了OW-COD,这是一个具有挑战性但实用的基准,用于评估在少量持续适应下,开放世界(Open-World,OW)检测器对已见和未见类别的检测能力。
- 我们提出了MR-GDINO,这是一种强大、高效且可扩展的OW持续检测器,它通过带有高度可扩展内存池的记忆和检索机制实现。
- MR-GDINO仅通过激活0.1%的额外参数,就有效提高了在少量适应下对持续出现的类别的检测能力,同时确保了在不遗忘的情况下保持开放世界的检测能力。
- 相关工作
2.1 开放世界目标检测
开放世界(Open-World,OW)目标检测[2, 29, 40, 50, 63]旨在通过丰富的多模态数据[3, 26, 41, 44, 52, 56, 60]开发最优检测器,使其能够在现实场景中识别已见和未见类别。OW检测器设计中的一个关键组件是视觉语言(Visual-Language,VL)交互模块[29, 34, 50],它将视觉特征与文本嵌入相结合,从而影响检测能力。OW检测器大致分为基于匹配的检测器[56,58],它们使用预训练的文本嵌入来识别局部对象,以及基于融合的检测器[29,34,50,63],它们结合注意力模块[29, 34]或排序门[50]来合并视觉和语言特征以实现准确分类。然而,很少有研究[8]探讨在持续适应下OW检测器中的灾难性遗忘问题。相比之下,OW-COD在持续适应中研究了这一问题,MR-GDINO在确保对已见和未见类别都具备优异能力方面表现出色。使用OW检测器的少量目标检测。我们的工作与少量目标检测具有相似性。预训练的OW检测器[34,53]可以使用少量训练样本[11, 22, 53]快速适应目标域,以获得更好的性能。然而,这通常会导致对未见类别的泛化能力较差[8]。相比之下,MR-GDINO在持续的少量适应期间,对已见和未见类别都表现出了稳健的性能。
2.2 持续目标检测
持续目标检测(Continual Object Detection,COD)[12, 35, 64]旨在学习能够纳入新类别同时保留先前类别知识的检测器。早期方法如ILOD[45]使用伪标签蒸馏来解决灾难性遗忘[31, 42],而近期工作则改进了架构和训练策略[14, 35, 46, 64]。然而,很少有研究[8]关注OW-COD。相比之下,我们的MR-GDINO引入了一种基于检索的[9,55]方法,用于预训练OW模型的持续少量适应[34, 50],从而防止遗忘并将COD扩展到实际应用场景。
- 开放世界持续目标检测
3.1 任务定义
在持续目标检测(COD)和开放世界目标检测(OWOD)的基础上,我们制定了开放世界持续目标检测任务。给定一个在大规模数据集
D
pre
\mathbb{D}_{\text {pre }}
Dpre 上预训练的开放世界(OW)目标检测器
f
f
f,以及一个大小为
T
T
T的训练集序列
{
D
1
,
…
,
D
T
}
\left\{\mathbb{D}_{1}, \ldots, \mathbb{D}_{T}\right\}
{D1,…,DT},我们的目标是通过在每个
D
i
\mathbb{D}_{i}
Di上顺序学习来优化
f
f
f及其相应参数
θ
f
\theta_{f}
θf。这样,优化后的
f
(
⋅
;
θ
f
)
f\left(\cdot ; \theta_{f}\right)
f(⋅;θf)能够准确检测之前学习的旧类别
C
1
∪
⋯
∪
C
T
−
1
\mathbb{C}_{1} \cup \cdots \cup \mathbb{C}_{T-1}
C1∪⋯∪CT−1和新学习的类别
C
T
\mathbb{C}_{T}
CT,其中
C
i
\mathbb{C}_{i}
Ci表示对应
D
i
\mathbb{D}_{i}
Di的标签集。同时,
f
(
⋅
;
θ
f
)
f\left(\cdot ; \theta_{f}\right)
f(⋅;θf)应在具有相应大规模和多样化标签空间
C
unseen
\mathbb{C}_{\text {unseen }}
Cunseen 的开放世界评估数据集
D
unseen
val
\mathbb{D}_{\text {unseen }}^{\text {val }}
Dunseen val 上具有良好的泛化能力。我们提出的任务的目标是激励OW检测器同时保留已学习类别、适应新类别,并保持开放世界能力,这对于OW检测器同时适应不断变化的新环境并保持泛化能力至关重要。
3.2 基准构建
在定义任务后,我们制定了相应的OWCOD数据集作为持续学习和对旧、新和未见类别通用评估的数据源。一般来说,OW-COD是从现有的目标检测数据集[17,29]中收集的,并大致分为两组,即已见类别数据和未见类别数据。对于已见类别数据,我们利用了ODinW-13[29]中的13个子集(从“Aerial”到“Vehicle”),并按子集的字典顺序升序分配
{
D
1
,
…
,
D
T
}
\left\{\mathbb{D}_{1}, \ldots, \mathbb{D}_{T}\right\}
{D1,…,DT}。
{
D
1
,
…
,
D
T
}
\left\{\mathbb{D}_{1}, \ldots, \mathbb{D}_{T}\right\}
{D1,…,DT}之间的标签空间通常是不重叠的,并符合我们的任务要求。在每一步
t
t
t的训练过程中,只有来自
D
t
\mathbb{D}_{t}
Dt的图像是可见的。值得注意的是,为了模拟实际的快速适应场景并增加基准的挑战性,OWCOD采用了少量训练设置。此设置要求持续的OW检测器有效减轻过拟合和灾难性遗忘的影响,从而为旧、新和未见类别提供稳健的检测能力。对于未见类别数据,为了更好地与现实世界的部署场景保持一致,我们利用了具有约5k验证图像和1203个类别的LVIS[17]minival集来实证评估未见类别的检测性能。该子集仅用于评估。利用数据集的大规模和高度多样化的标签空间,有助于实证分析在持续适应下未见类别的抗遗忘能力。MR-GDINO训练和评估数据的统计信息见附录。
3.3 OW-COD的指标
平均精度。根据持续目标检测[8,12,35,64]和开放世界目标检测[2, 29, 40, 50, 63]的工作,我们报告了每个子集的平均精度均值(mAP),以定量评估在持续学习范式下学习的开放世界(OW)检测器的性能。具体来说,提供了每个子集的平均精度(AP)来评估少量持续适应后持续OW检测器的检测性能。此外,还报告了之前学习的、新看到的和未见类别的平均AP,以总结整体性能。
平均排名。受之前基准[29, 61]的启发,OW-COD还采用了平均排名作为辅助指标来衡量现有持续OW检测器的相对性能。具体来说,OW-COD首先在每个子集内对所有模型进行排名。对于已见类别的 K K K个子集,让 R j i R_{j}^{i} Rji表示第 j j j个检测器对第 i i i个子集的排名。然后,已见类别的平均排名 R j seen R_{j}^{\text {seen }} Rjseen 定义为:
R j seen = ∑ i = 1 K R j i K R_{j}^{\text {seen }}=\frac{\sum_{i=1}^{K} R_{j}^{i}}{K} Rjseen =K∑i=1KRji
同样,我们为第 j j j个检测器定义了未见类别的平均排名 R j unseen R_{j}^{\text {unseen }} Rjunseen 。最后,通过以下公式计算总体排名 R j avg R_{j}^{\text {avg }} Rjavg :
R j a v g = R j s e e n 2 + R j u n s e e n 2 2 R_{j}^{\mathrm{avg}}=\sqrt{\frac{R_{j}^{\mathrm{seen} 2}+R_{j}^{\mathrm{unseen} 2}}{2}} Rjavg=2Rjseen2+Rjunseen2
此排名的优点在于,只有当检测器在已见和未见类别上都表现良好时,它才能获得更高的排名,从而强调了其减轻新旧类别灾难性遗忘的能力。
3.4. 与同类方法的比较
与COD的比较。COD[8, 12, 35, 64]通常通过将标签集分成组来从整个数据集(例如,COCO[32])中拆分注释,这在实际中并不可行,因为新类别通常出现在未见过的场景中[49, 51],并且在注释期间,已见过的图像通常会被完全标注[32, 44, 52]。MR-GDINO避免了这种不规则场景。此外,随着开放世界(OW)模型在持续学习[55, 59]中的使用越来越多,OW-COD强调了对于未见类别的抗遗忘能力。
与OWOD的比较。OWOD[2, 29, 40, 50, 63]可以被视为我们任务的一个零样本特例。相比之下,OW-COD同时强调了新旧未见类别之间的抗遗忘能力,这很大程度上需要OW检测器的泛化能力。
与Deng等人的比较。Deng等人[8]对开放世界持续学习进行了初步研究。然而,他们的方法有两个主要缺点。首先,任务增量评估对于实际应用来说不切实际,并且简化了持续开放世界(OW)检测器的挑战。其次,他们使用COCO[32]进行OW评估是有限的,因为它仅包含80个常见类别,这些类别在持续学习的步骤中经常重复出现,从而降低了任务的复杂性。
- 提出的方法
4.1. MR-GDINO概述
为了实现OW-COD的目标,我们的核心思想是首先利用参数高效的模块在每个步骤中构建“记忆”,然后自适应地检索最优记忆以实现稳健的性能。因此,我们提出了
MR-GDINO,一个基于OW-COD基准的强大基线。MR-GDINO使用了一个冻结的开放世界对象检测器,该检测器具有明确的视觉-语言交互模块[29, 34](例如,Grounding DINO[34]),并整合了记忆和检索机制用于检测。MR-GDINO的训练和测试流程如图2所示。具体来说,在步骤
t
t
t的训练过程中,给定输入图像
I
\mathbf{I}
I和相应的训练标签集
C
t
\mathbb{C}_{t}
Ct,MR-GDINO首先用点符号连接
C
t
\mathbb{C}_{t}
Ct中的类别名称,并形成一个统一的类别句子
T
t
\mathbf{T}_{t}
Tt。然后,MR-GDINO分别通过图像特征提取器
f
I
(
⋅
;
θ
I
)
f_{\mathbf{I}}\left(\cdot ; \theta_{\mathbf{I}}\right)
fI(⋅;θI)和文本特征提取器
f
T
(
⋅
;
θ
T
,
θ
con
t
)
f_{\mathbf{T}}\left(\cdot ; \theta_{\mathbf{T}}, \theta_{\text {con }}^{t}\right)
fT(⋅;θT,θcon t)计算密集图像特征
F
I
\mathbf{F}_{\mathbf{I}}
FI和文本特征
F
T
\mathbf{F}_{\mathbf{T}}
FT,其中
θ
con
t
\theta_{\text {con }}^{t}
θcon t是我们提出的概念记忆的参数。接下来,将
F
I
\mathbf{F}_{\mathbf{I}}
FI和
F
T
\mathbf{F}_{\mathbf{T}}
FT输入到视觉-语言特征增强器
f
V
L
(
⋅
;
θ
V
L
,
θ
i
n
c
t
)
f_{\mathbf{V L}}\left(\cdot ; \theta_{\mathbf{V L}}, \theta_{\mathrm{inc}}^{t}\right)
fVL(⋅;θVL,θinct)中,并获得精炼特征
F
I
′
\mathbf{F}_{\mathbf{I}}^{\prime}
FI′和
F
T
′
\mathbf{F}_{\mathbf{T}}^{\prime}
FT′,其中
θ
i
n
c
t
\theta_{\mathrm{inc}}^{t}
θinct是我们提出的VL交互记忆的参数。最后,将
F
I
′
\mathbf{F}_{\mathbf{I}}^{\prime}
FI′和
F
T
′
\mathbf{F}_{\mathbf{T}}^{\prime}
FT′输入到视觉-语言解码器
f
dec
(
⋅
;
θ
dec
)
f_{\text {dec }}\left(\cdot ; \theta_{\text {dec }}\right)
fdec (⋅;θdec )中,并获得每个对象的检测结果。这些结果由相应的真实值进行监督,并用于优化
θ
con
t
\theta_{\text {con }}^{t}
θcon t和
θ
inc
t
\theta_{\text {inc }}^{t}
θinc t。在推理期间,输入图像
I
I
I首先通过图像特征提取器
f
I
f_{\mathbf{I}}
fI提取全局嵌入
g
I
\mathbf{g}_{\mathrm{I}}
gI。然后,MR-GDINO使用
g
I
\mathbf{g}_{\mathbf{I}}
gI作为查询,通过阈值
τ
\tau
τ从记忆池
B
\mathbb{B}
B中检索最优记忆三元组
{
(
ψ
o
p
t
,
θ
c
o
n
o
p
t
,
θ
i
n
c
o
p
t
)
}
\left\{\left(\psi^{\mathrm{opt}}, \theta_{\mathrm{con}}^{\mathrm{opt}}, \theta_{\mathrm{inc}}^{\mathrm{opt}}\right)\right\}
{(ψopt,θconopt,θincopt)}。最后,将输入图像
I
\mathbf{I}
I和类别句子
T
\mathbf{T}
T输入到每个OW检测器
f
(
⋅
,
θ
f
,
θ
inc
opt
)
f\left(\cdot, \theta_{f}, \theta_{\text {inc }}^{\text {opt }}\right)
f(⋅,θf,θinc opt )中,以获得初始检测结果。这些结果通过非极大值抑制(NMS)[19]进行后处理,以获得最终结果。
4.2. 概念与交互记忆机制
受小样本学习[9,24,66]和持续学习[10,55,59]中参数高效微调技术的启发,MR-GDINO利用参数高效的模块作为记忆单元(即概念记忆和视觉-语言(VL)交互记忆),为不断添加的类别在相应的学习步骤中构建最优记忆。
概念记忆。为了使 f T ( ⋅ ; θ T ) f_{\mathbf{T}}\left(\cdot ; \theta_{\mathbf{T}}\right) fT(⋅;θT)能够适应不断添加的类别且几乎不增加额外参数,我们在 f T f_{\mathbf{T}} fT中引入了一个可学习的提示符 θ con \theta_{\text {con }} θcon 。在第 t t t个训练步骤中,给定类别句子 T T T,MR-GDINO首先通过嵌入层将 T T T转换为初始文本嵌入 E \mathbf{E} E,然后将 E \mathbf{E} E和 θ con t \theta_{\text {con }}^{t} θcon t进行拼接,最后将拼接后的序列输入到 f T f_{\mathbf{T}} fT中的Transformer块中,获得最终的文本嵌入 F T \mathbf{F}_{\mathbf{T}} FT。
VL交互记忆。受显式VL交互模块[29,34]的启发,我们得出结论:增强这些模块上每一步的VL交互可以带来更好的持续开放世界(OW)检测器。为了从记忆池中检索最优记忆以缓解灾难性遗忘,我们提出了VL交互记忆,并利用LoRA[21]作为相应的记忆,如图3所示。在 f V L f_{\mathbf{V L}} fVL的每一层 j j j中,给定 F I \mathbf{F}_{\mathbf{I}} FI和 F T \mathbf{F}_{\mathbf{T}} FT,MR-GDINO使用可变形自注意力[67]和常规自注意力[48]分别精炼图像和文本特征,从而获得 F ^ I \hat{\mathbf{F}}_{\mathbf{I}} F^I和 F ^ T \hat{\mathbf{F}}_{\mathbf{T}} F^T。然后,MR-GDINO通过以下方式计算聚合文本特征 F ~ T \tilde{\mathbf{F}}_{\mathbf{T}} F~T:
F ~ T = Attn ( q T , k I , v I ) , 其中 q T = ( Q I → T + B I → T q A I → T q ) F ^ T k I = ( K I → T + B I → T k A I → T k ) F ^ I v I = ( V I → T + B I → T v A I → T v ) F ^ I \begin{aligned} \tilde{\mathbf{F}}_{\mathbf{T}} & =\operatorname{Attn}\left(\mathbf{q}_{\mathbf{T}}, \mathbf{k}_{\mathbf{I}}, \mathbf{v}_{\mathbf{I}}\right), \text { 其中 } \\ \mathbf{q}_{\mathbf{T}} & =\left(\mathbf{Q}_{\mathbf{I} \rightarrow \mathbf{T}}+\mathbf{B}_{\mathbf{I} \rightarrow \mathbf{T}}^{\mathbf{q}} \mathbf{A}_{\mathbf{I} \rightarrow \mathbf{T}}^{\mathbf{q}}\right) \hat{\mathbf{F}}_{\mathbf{T}} \\ \mathbf{k}_{\mathbf{I}} & =\left(\mathbf{K}_{\mathbf{I} \rightarrow \mathbf{T}}+\mathbf{B}_{\mathbf{I} \rightarrow \mathbf{T}}^{\mathbf{k}} \mathbf{A}_{\mathbf{I} \rightarrow \mathbf{T}}^{\mathbf{k}}\right) \hat{\mathbf{F}}_{\mathbf{I}} \\ \mathbf{v}_{\mathbf{I}} & =\left(\mathbf{V}_{\mathbf{I} \rightarrow \mathbf{T}}+\mathbf{B}_{\mathbf{I} \rightarrow \mathbf{T}}^{\mathbf{v}} \mathbf{A}_{\mathbf{I} \rightarrow \mathbf{T}}^{\mathbf{v}}\right) \hat{\mathbf{F}}_{\mathbf{I}} \end{aligned} F~TqTkIvI=Attn(qT,kI,vI), 其中 =(QI→T+BI→TqAI→Tq)F^T=(KI→T+BI→TkAI→Tk)F^I=(VI→T+BI→TvAI→Tv)F^I
其中,“Attn”表示交叉注意力[48], A A A和 B \mathbf{B} B表示LoRA的下投影和上投影层。注意,具有相应LoRA的 Q \mathbf{Q} Q和 K \mathbf{K} K共享相同参数,并且仅在训练期间优化 A \mathbf{A} A和 B \mathbf{B} B。接下来,MR-GDINO通过以下方式计算聚合图像特征 F ~ I \tilde{\mathbf{F}}_{\mathbf{I}} F~I:
F ~ I = Attn ( q I , k T , v T ) , 其中 q I = ( Q T → I + B T → I q A T → I q ) F ^ I k T = ( K T → I + B T → I k A T → I k ) F ~ T v T = ( V T → I + B T → I v A T → I v ) F ~ T \begin{aligned} \tilde{\mathbf{F}}_{\mathbf{I}} & =\operatorname{Attn}\left(\mathbf{q}_{\mathbf{I}}, \mathbf{k}_{\mathbf{T}}, \mathbf{v}_{\mathbf{T}}\right), \text { 其中 } \\ \mathbf{q}_{\mathbf{I}} & =\left(\mathbf{Q}_{\mathbf{T} \rightarrow \mathbf{I}}+\mathbf{B}_{\mathbf{T} \rightarrow \mathbf{I}}^{\mathbf{q}} \mathbf{A}_{\mathbf{T} \rightarrow \mathbf{I}}^{\mathbf{q}}\right) \hat{\mathbf{F}}_{\mathbf{I}} \\ \mathbf{k}_{\mathbf{T}} & =\left(\mathbf{K}_{\mathbf{T} \rightarrow \mathbf{I}}+\mathbf{B}_{\mathbf{T} \rightarrow \mathbf{I}}^{\mathbf{k}} \mathbf{A}_{\mathbf{T} \rightarrow \mathbf{I}}^{\mathbf{k}}\right) \tilde{\mathbf{F}}_{\mathbf{T}} \\ \mathbf{v}_{\mathbf{T}} & =\left(\mathbf{V}_{\mathbf{T} \rightarrow \mathbf{I}}+\mathbf{B}_{\mathbf{T} \rightarrow \mathbf{I}}^{\mathbf{v}} \mathbf{A}_{\mathbf{T} \rightarrow \mathbf{I}}^{\mathbf{v}}\right) \tilde{\mathbf{F}}_{\mathbf{T}} \end{aligned} F~IqIkTvT=Attn(qI,kT,vT), 其中 =(QT→I+BT→IqAT→Iq)F^I=(KT→I+BT→IkAT→Ik)F~T=(VT→I+BT→IvAT→Iv)F~T
最后,通过相应的前馈网络对 F ~ I \tilde{\mathbf{F}}_{\mathbf{I}} F~I和 F ~ T \tilde{\mathbf{F}}_{\mathbf{T}} F~T进行精炼。经过 L L L层聚合后,可以获得用于目标检测的最终 F I ′ \mathbf{F}_{\mathbf{I}}^{\prime} FI′和 F T ′ \mathbf{F}_{\mathbf{T}}^{\prime} FT′。并且,所有层中学习到的 A \mathbf{A} A和 B \mathbf{B} B构成了第 t t t步中的 θ i n c t \theta_{\mathrm{inc}}^{t} θinct。
4.3. 记忆检索机制
这两种记忆都能有效地融入每个步骤中的知识。然而,这些记忆在未见过的和特定之前学过的场景中仍然面临灾难性遗忘。为了缓解这个问题,一个直观的想法是明确记忆所有之前学过的记忆,并在推理期间自适应地检索最佳匹配的模块。这种方法也与人类记忆[1,6]相一致。因此,我们提出了检索机制。具体来说,MR-GDINO引入了一个记忆池 B \mathbb{B} B来存储所有之前学过的记忆。对于第 t t t步,给定 n n n个样本的训练图像,MR-GDINO首先通过实例裁剪增强图像,并为 C t \mathbb{C}_{t} Ct中的每个类别 k k k获得总共 N N N张图像。然后,MR-GDINO使用 f ( ⋅ ; θ I ) f\left(\cdot ; \theta_{I}\right) f(⋅;θI)计算每个平均全局嵌入 ψ k t \psi_{k}^{t} ψkt(通过平均操作)。最后,MR-GDINO通过 { ( ψ k t , θ con t , θ inc t ) } \left\{\left(\psi_{k}^{t}, \theta_{\text {con }}^{t}, \theta_{\text {inc }}^{t}\right)\right\} {(ψkt,θcon t,θinc t)}制定第 t t t步的三元组,其中 θ con t \theta_{\text {con }}^{t} θcon t和 θ i n c t \theta_{\mathrm{inc}}^{t} θinct是从第 t t t步优化的概念和VL交互记忆。在推理期间,给定输入图像 I I I,MR-GDINO首先提取全局嵌入 g I \mathbf{g}_{\mathbf{I}} gI,然后通过阈值 τ \tau τ找到记忆三元组的索引 { t ^ } \{\hat{t}\} {t^},并确保 { t ^ } = { t ∣ ⟨ g I , ψ t ⟩ > τ } \{\hat{t}\}=\left\{t \mid\left\langle\mathbf{g}_{\mathbf{I}}, \psi^{t}\right\rangle>\tau\right\} {t^}={t∣⟨gI,ψt⟩>τ}。最后,我们通过以下方式检索最优记忆 { ( ψ opt , θ c o n o p t , θ i n c o p t ) } \left\{\left(\psi^{\text {opt }}, \theta_{\mathrm{con}}^{\mathrm{opt}}, \theta_{\mathrm{inc}}^{\mathrm{opt}}\right)\right\} {(ψopt ,θconopt,θincopt)}:
( ψ o p t , θ c o n o p t , θ i n c o p t ) = { { ( ψ t ^ , θ c o n t ^ , θ i n c t ^ ) } ⟨ g I , ψ t ^ ⟩ ⩾ τ ϕ { t ^ } = ϕ \left(\psi^{\mathrm{opt}}, \theta_{\mathrm{con}}^{\mathrm{opt}}, \theta_{\mathrm{inc}}^{\mathrm{opt}}\right)=\left\{\begin{array}{lr} \left\{\left(\psi^{\hat{t}}, \theta_{\mathrm{con}}^{\hat{t}}, \theta_{\mathrm{inc}}^{\hat{t}}\right)\right\} & \left\langle\mathrm{g}_{\mathbf{I}}, \psi^{\hat{t}}\right\rangle \geqslant \tau \\ \phi & \{\hat{t}\}=\phi \end{array}\right. (ψopt,θconopt,θincopt)={{(ψt^,θcont^,θinct^)}ϕ⟨gI,ψt^⟩⩾τ{t^}=ϕ
这种设计确保了当出现未见对象时,MR-GDINO能够使用原始的预训练OW检测器来检测野外对象,从而保留了开放世界中未见类别的检测能力。
4.4. MR-GDINO的训练
在训练过程中,预训练的开放世界(Open World,简称OW)检测器的参数被冻结,以保持稳健的特征表示[9, 24, 55],同时仅对概念和视觉-语言(Visual-Language,简称VL)交互记忆进行优化。具体来说,为了保持从冻结的 f T f_{\mathbf{T}} fT获得的文本嵌入分布的一致性,以实现稳定训练,记忆训练被分为两个阶段。在第一阶段,MR-GDINO冻结VL交互记忆并优化概念记忆,以适应新的类别。在第二阶段,更新后的概念记忆被冻结,交互记忆得到优化,以精炼视觉-语言关系。值得注意的是,如第5.4节所述,同时训练这两种类型的记忆可以获得相似的性能。
训练目标。与以前的工作[12, 35]不同,MR-GDINO不使用专门为持续学习设计的额外损失。对于边界框回归,MR-GDINO在每个训练步骤中最小化L1损失和GIoU损失[43]。对于目标分类,采用焦点损失[33]来提高识别性能。
4.5. 与同类方法的比较及优点
如表1所示,MR-GDINO在三个方面表现出色。在灵活性方面,它通过激活参数选择实现灵活的记忆检索,优于CoOp和CL-DETR。在可扩展性方面,MR-GDINO凭借可扩展的记忆池来保存和整合知识,超越了L2P[55]。最后,在效率方面,MR-GDINO利用参数高效的微调,优于传统的全微调方法[4, 35, 64]。这些优势确保了MR-GDINO在旧类、新类和未见类上都能表现出强大的性能。
- 实验
我们将MR-GDINO与零样本GDINO[34]、CoOp[66]、L2P[55]、Adapter[20]和ZiRa[8]进行了比较。所有方法都是为持续学习或快速适应而设计的。
5.1. 实现细节
我们采用Swin-T[36] Grounding DINO[34]作为MR-GDINO和同类方法的预训练OW检测器。对于在开放世界目标检测中的持续训练,我们按照子集字典顺序的升序优化OW检测器,并在相应子集的旧类、新类和未见类上评估训练后的检测器,而不进行任何测试时增强。对于MR-GDINO,我们设置默认的提示长度为10,LoRA[21]瓶颈维度为8。我们使用AdamW[38]优化器,并配合余弦学习率调度器[15,37]来优化MR-GDINO,其中权重衰减为 1 e − 2 1 \mathrm{e}-2 1e−2,每个GPU的批量大小为1。初始学习率候选值为 { 1 e − 1 , 4 e − 2 , 1 e − 2 , 1 e − 3 , 1 e − 4 } \{1 \mathrm{e}-1, 4 \mathrm{e}-2, 1 \mathrm{e}-2, 1 \mathrm{e}-3, 1 \mathrm{e}-4\} {1e−1,4e−2,1e−2,1e−3,1e−4},训练轮次范围从 { 1 ∼ 10 } \{1\sim10\} {1∼10}。我们执行网格搜索[27]以找到每个步骤的最优超参数。默认情况下, τ \tau τ设置为0.89。使用基线方法的默认超参数构建和优化基线方法。由于原始GDINO实现中缺少LVIS评估工具包,我们实现了相应的工具包,以公平地评估所有方法中的旧类、新类和未见类。
5.2. 与最先进方法的比较
表2展示了在不同样本下的持续适应中,MR-GDINO与所有同类方法的比较。在所有同类方法中,只有ZiRa[8]在10次样本的持续适应后,在 A P seen \mathrm{AP}^{\text {seen }} APseen 上比零样本GDINO高出3.1,而其他方法未能超越GDINO。对于未见类,只有基于Adapter[20]的持续OW检测器获得了虽然较低但可比较的mAP,而其他方法都遭受了严重的灾难性遗忘。这些发现强烈支持了我们的观点,并凸显了开放世界目标检测的重要性。相比之下,在10次样本训练下,MR-GDINO实现了51.9的 A P seen \mathrm{AP}^{\text {seen }} APseen 和20.7的 A P unseen \mathrm{AP}^{\text {unseen }} APunseen 。此外,即使在1次样本的持续学习设置中,MR-GDINO仍实现了46.7的已见类mAP,在未见类mAP上仅下降了0.1,并且在两个指标上都大幅超越了所有同类方法。这些有前景的结果表明,MR-GDINO可以大幅提高旧类和新类的检测性能,同时保持对未见类别的稳健检测能力。我们还调查了每个训练步骤中相应的遗忘率,详见补充材料。此外,尽管ZiRa和Adapter分别表现出对已见和未见类别的改进的抗遗忘能力,但它们在已见和未见类别之间性能不平衡的影响下,平均排名仍然受到影响。相比之下,MR-GDINO在排行榜上的 R avg R^{\text {avg }} Ravg 排名为1.3,凸显了其在旧类、新类和未见类上平衡且优越的性能。
定性结果。此外,我们展示了ZS GDINO[34]、ZiRa[8]和MR-GDINO之间的定性结果,如图4所示。值得注意的是,MR-GDINO为旧类和新类都生成了准确且置信度更高的边界框。此外,MR-GDINO在为未见类生成准确边界框方面优于ZiRa。这些结果进一步证实了MR-GDINO的有效性。更多定性结果见补充材料。
5.3. MR-GDINO可以缓解遗忘类别
基于在已见和未见类别中表现出的卓越抗遗忘能力,我们可以利用MR-GDINO来缓解微调中的“遗忘”类别。具体来说,我们在COCO[32]上完全微调GDINO[34],相应的评估结果如表3所示。虽然COCO上的检测性能提高到57.3 mAP,但13个子集中的6个子集的检测性能却有所下降,这可以视为遗忘了未见类别。通过将MR-GDINO应用于GDINO(COCO-ft),上述子集上的检测性能有所提高,实现了54.5的
A
P
seen
\mathrm{AP}^{\text {seen }}
APseen 。同时,由于COCO[32]和LVIS[17]在图像域上有很大重叠,GDINO(COCO-ft)的
A
P
unseen
\mathrm{AP}^{\text {unseen }}
APunseen 由于完全微调而提高到23.6。与GDINO(COCO-ft)相比,采用MR-GDINO的
A
P
unseen
\mathrm{AP}^{\text {unseen }}
APunseen 保持不变。上述结果进一步验证了MR-GDINO在缓解遗忘方面的有效性。
5.4. 实证分析
5.4.1. 各组件消融研究
我们首先使用10次增量学习来进行各组件的消融研究。表4展示了每种方法的评估结果。在采用
θ
con
\theta_{\text {con }}
θcon 后,
A
P
old
\mathrm{AP}^{\text {old }}
APold 和
θ
con
\theta_{\text {con }}
θcon ,
A
P
unseen
\mathrm{AP}^{\text {unseen }}
APunseen 分别大幅下降至32.2和17.0,但
A
P
new
\mathrm{AP}^{\text {new }}
APnew 大幅上升至62.1。同样地,当进一步将
θ
inc
\theta_{\text {inc }}
θinc 引入MR-GDINO时,相应的
A
P
new
\mathrm{AP}^{\text {new }}
APnew 增加至63.1。上述优化后的记忆为各个子集提供了强大且稳健的学习参数,并有助于检索机制。在采用检索机制后,
A
P
old
\mathrm{AP}^{\text {old }}
APold 和
A
P
unseen
\mathrm{AP}^{\text {unseen }}
APunseen 分别显著提升至51.3和20.7,这表明该机制可以有效地为给定输入检索出最优的
θ
con
\theta_{\text {con }}
θcon 和
θ
inc
\theta_{\text {inc }}
θinc ,从而获得更好的检测能力。如果输入图像来自未见类别,MR-GDINO仍然可以执行正确的操作并使用ZS GDINO进行推理。这些发现验证了记忆和检索机制在开放世界持续目标检测(OW-COD)中的有效性,并揭示了构建更好的持续开放世界检测器的潜在方向。
5.4.2.
θ
inc
\theta_{\text {inc }}
θinc 插入层数的影响
接下来,我们研究
θ
inc
\theta_{\text {inc }}
θinc 插入层数的影响,相应的结果如表5所示。通过在更多层中插入
θ
inc
\theta_{\text {inc }}
θinc ,
A
P
old
\mathrm{AP}^{\text {old }}
APold 从44.4逐渐增加到51.3,同时保持相同的
A
P
unseen
\mathrm{AP}^{\text {unseen }}
APunseen 。这些结果表明,将
θ
inc
\theta_{\text {inc }}
θinc 插入到更多的视觉语言(VL)交互层中,可以在几乎不增加参数的情况下获得更好的性能。
5.4.3. 分离训练或联合训练
我们还研究了MR-GDINO是否支持在每个训练步骤
t
t
t中对
θ
con
t
\theta_{\text {con }}^{t}
θcon t和
θ
i
n
c
t
\theta_{\mathrm{inc}}^{t}
θinct进行联合训练。我们使用从分离训练中确定的最优训练超参数,同时优化
θ
c
o
n
t
\theta_{\mathrm{con}}^{t}
θcont和
θ
i
n
c
t
\theta_{\mathrm{inc}}^{t}
θinct。表6中的结果表明,联合训练达到了相同的
59.7
A
P
new
59.7 \mathrm{AP}^{\text {new }}
59.7APnew 和
A
P
unseen
\mathrm{AP}^{\text {unseen }}
APunseen ,同时
A
P
old
\mathrm{A P}^{\text {old }}
APold 略有提升。这些发现表明,一旦确定了最优超参数,联合优化可以将训练时间减半,从而提高效率。
5.4.4. 与最优检索的性能差距
最后,我们分析了检索机制,以评估MR-GDINO与最优检索之间的性能差距。对于最优检索,我们使用真实标签分配
θ
con
o
p
t
\theta_{\text {con }}^{\mathrm{opt}}
θcon opt和
θ
inc
o
p
t
\theta_{\text {inc }}^{\mathrm{opt}}
θinc opt,并在表7中报告检测结果。与最优检索相比,MR-GDINO在
A
P
old
\mathrm{AP}^{\text {old }}
APold 上仅下降了0.5,在
A
P
new
\mathrm{AP}^{\text {new }}
APnew 上下降了0.1,而在
A
P
unseen
\mathrm{AP}^{\text {unseen }}
APunseen 上实现了相似的性能。这些结果证实了MR-GDINO检索机制的有效性。然而,对于未来的大规模和实际应用,探索更精确的检索机制仍然具有重要意义。补充材料中提供了进一步的分析。
6. 结论
我们提出了开放世界持续目标检测(OW-COD),要求检测器能够泛化到旧类、新类和未见类。为了评估现有持续学习方法下的OW检测器,我们提出了OW-COD基准,鼓励OW检测器保留旧类、适应新类,并保持开放世界的检测能力。为了解决未见类的灾难性遗忘问题,我们提出了一个强大的基线,即MR-GDINO,这是一个可扩展的开放世界目标检测框架,它在一个紧凑的记忆池中利用记忆和检索。我们的结果表明,MR-GDINO仅以0.1%的额外参数最小化了灾难性遗忘,在OW-COD上实现了最先进的性能。