MDETR - Modulated Detection for End-to-End Multi-Modal Understanding
Abstract
多模态推理系统(如视觉问答系统或图像与文本之间的匹配系统)通常依赖于一个预训练的物体检测器,用于从图像中提取感兴趣的区域。这些物体检测器通常是作为“黑盒”使用的,也就是说,它们在被训练时独立于下游任务,并且是基于一个固定的物体和属性词汇表进行训练的。
这种做法有一个问题:固定的物体和属性词汇表限制了这些检测器只能识别训练时所见的物体类别,因此当遇到自由文本表达的视觉概念(即,文本中提到的物体类别或者描述是从未在训练集中出现过的)时,系统就很难有效地理解和检测这些概念。
我们在130万个文本-图像对上预训练网络,这些文本-图像对是从已有的多模态数据集中挖掘出来的,文本中的短语和图像中的对象之间有明确的对齐。 然后,我们对几个下游任务进行微调,如短语基础、参考表达理解和分割,在流行的基准上获得最先进的结果。 我们还研究了我们的模型在给定标签集上作为对象检测器的效用,当在几个镜头设置中进行微调时。 我们表明,我们的预训练方法提供了一种方法来处理具有很少标记实例的对象类别的长尾。
Introduction
传统的目标检测通常是将目标检测视为一个“黑盒”,他们在训练的时候独立于下游任务,通常是先将image中的目标检测出来,然后再与文本等多模态对齐,固定的object和词汇检测表。限制里这些检测器只能识别训练时见到过的object,当出现没有见到过的,就很难进行识别。检测系统通常被冻结,参数和结构就不能被优化了。物体检测器通常作为一个独立模块存在,而不与下游任务(如图像-文本匹配或视觉问答等)共同训练。
本文贡献:
- 引入了一个端到端的文本调制检测系统,该系统源自于DETR检测器。
- 我们证明了调制检测方法可以无缝地应用于解决诸如phrase grounding和referring expression comprehension等任务,并使用具有合成图像和真实图像的数据集在这两个任务上设置了新的最先进的性能。
- 良好的调制检测性能自然地转化为下游任务性能,例如在视觉问题回答、参考表达式分割和少数镜头长尾目标检测上实现竞争性性能。
Method
Background
本文的方法建立在DETR系统之上
MDETR
Architecture
图像编码:
MDETR首先使用卷积神经网络(CNN)作为图像的特征提取器,通常会被“扁平化”成一个一维的向量,而且会为每个图像加上空间位置信息。
文本编码:
MDETR使用预训练的变换器(例如BERT、GPT等)模型来处理输入的文本。
然后,我们对图像和文本特征应用模态相关的线性投影,将它们投影到共享嵌入空间中。然后图像和文本features会在序列维度上进行拼接。然后他们会被送入cross encoder进行联合编码,使模型更理解二者之间的关系。
物体查询与decoder:
物体查询的作用与DETR类似:它们作为模型关注的目标,旨在通过与图像中的特征进行交互,预测物体的位置和类别。物体查询的存在帮助模型保持对图像中潜在物体的持续关注
decoder的输出就是bounding box
Training
Soft token prediction:与传统的DETR不同的,MDETR不是简单地预测类别,而是通过预测文本中对应描述该物体的词语范围(token span)。MDETR并不直接给每个物体一个类标签,而是预测一系列文本中的token,这些token描述了image中的物体。每个box通过与文本中的相关部分进行匹配。
如果某个物体查询没有匹配到box,模型会被训练预测“没有物体”(∅)标签
而且还会存在多个文本对应同一个物体的情况。
这个更加强调在空间位置上进行对齐,即box与文本token在位置上进行对齐。
Contrastive alignment
对比对齐损失强制在解码器输出处的对象的嵌入表示与交叉编码器输出处的文本表示之间进行对齐(也就是在特征空间上就开始进行对齐)。与不相关标记的嵌入相比,(视觉)对象及其对应的(文本)标记的嵌入在特征空间中更接近。
O就是物体集合,T就是token集合。
Experiment
预训练的RoBERTa-base作为我们的文本编码器,有12个encoders,每个层的隐藏维度为768,在多头注意力中有12个头。visual backbone用的是EfficientNet。
分别在Phrase grounding、REC、RES、VQA任务上进行微调实验,效果不错。
而且还可以解决长尾问题