当前位置: 首页 > article >正文

Vision-Language Models for Vision Tasks: A Survey 论文解读

摘要

大多数视觉识别研究在深度神经网络(DNN)训练中严重依赖于人工标注的数据,且通常为每个单一的视觉识别任务训练一个DNN,导致这种视觉识别范式既繁琐又耗时。为解决这两个挑战,近年来对视觉语言模型(VLMs)进行了深入研究。VLM通过从网络规模的图像-文本对中学习丰富的视觉-语言关联,并能够以单一模型实现对多种视觉识别任务的零样本预测。本文系统性地综述了VLM在各类视觉识别任务中的应用,包括:(1) 介绍视觉识别范式的发展背景;(2) 总结VLM的基础知识,包括广泛使用的网络架构、预训练目标和下游任务;(3) 列举VLM预训练与评估中广泛使用的数据集;(4) 对现有的VLM预训练方法、迁移学习方法以及知识蒸馏方法进行分类与回顾;(5) 对所综述方法进行基准测试、分析和讨论;(6) 提出了未来VLM在视觉识别领域研究中可能面临的挑战和研究方向。与本综述相关的项目已发布在 https://github.com/jingyi0000/VLM_survey

Index Terms—Visual recognition, vision-language model, pre-training, transfer learning, knowledge distillation, image classification, object detection, semantic segmentation, deep neural network, deep learning, big model, big data

introduction

视觉识别(例如图像分类、目标检测和语义分割)是计算机视觉研究中长期存在的难题,也是众多计算机视觉应用(如自动驾驶、遥感、机器人等)的基石。随着深度学习的发展,视觉识别研究通过利用端到端可训练的深度神经网络(DNN)取得了巨大的成功。然而,从传统机器学习转向深度学习也带来了两个新的重大挑战:一是经典的从零开始深度学习训练(Deep Learning from Scratch)的设置下,DNN训练的收敛速度较慢;二是DNN训练需要大规模、任务特定且由人群标注的数据,这一数据收集过程非常繁琐。

近期,一种新的学习范式——预训练、微调和预测(Pre-training, Fine-tuning and Prediction)在许多视觉识别任务中展示了极大的有效性。在这种范式下,首先使用现成的大规模训练数据(可以是标注的或非标注的)对DNN模型进行预训练,然后用任务特定的标注训练数据对预训练模型进行微调,如图2(a)和(b)所示。通过在预训练模型中学习到的全面知识,这一学习范式能够加速网络的收敛,并为各种下游任务训练出性能优异的模型。

尽管如此,“预训练、微调和预测”范式仍然需要一个额外阶段——为每个下游任务使用标注的训练数据进行任务特定的微调。受到自然语言处理(NLP)领域的进展的启发,最近一种名为视觉-语言模型预训练与零样本预测(Vision-Language Model Pre-training and Zero-shot Prediction)的新深度学习范式引起了广泛关注。在这种范式中,视觉-语言模型(VLM)使用几乎无限量的互联网图像-文本对进行预训练,而预训练后的VLM可以直接应用于下游视觉识别任务,而无需进一步的微调,如图2(c)所示。

VLM的预训练通常受到特定视觉-语言目标的指导,这些目标能够从大规模的图像-文本对中学习图像-文本对应关系。例如,CLIP采用了一种图像-文本对比目标,通过在嵌入空间中将成对的图像和文本拉近,同时将其他不相关的图像和文本拉远的方式进行学习。通过这种方式,预训练的VLM能够捕捉丰富的视觉-语言对应知识,并通过匹配任意给定图像和文本的嵌入进行零样本预测。这种新的学习范式能够有效利用网络数据,并允许在无需任务特定微调的情况下进行零样本预测。

这种方法简单易用,但性能非常出色。例如,预训练的CLIP在36项视觉识别任务中实现了卓越的零样本性能,这些任务涵盖了从经典的图像分类到人类行为识别和光学字符识别的广泛范围。

在视觉-语言模型(VLM)预训练与零样本预测取得巨大成功之后,研究人员进一步在两个方向上对VLM展开了深入研究。第一个方向是探索VLM的迁移学习。这一方向包括多种迁移方法,例如提示调优(prompt tuning)、视觉适配(visual adaptation)等,这些方法都旨在有效地将预训练的VLM适配到各种下游任务中。第二个方向是探索VLM的知识蒸馏,例如,一些研究探讨了如何将VLM中的知识提炼到下游任务中,以实现目标检测、语义分割等任务的更优性能。

在这里插入图片描述
尽管近年来大量论文表明研究者对从VLM中挖掘丰富知识表现出浓厚兴趣(如图1所示),但研究界仍缺乏一份能够系统梳理基于VLM的视觉识别研究、面临的挑战以及未来研究方向的全面综述。为填补这一空白,我们系统性地回顾了VLM在各种视觉识别任务(包括图像分类、目标检测、语义分割等)中的研究成果。本综述从多个角度展开,包括背景、基础、数据集、技术方法、基准测试和未来研究方向。我们相信,这份综述将为研究者提供清晰的全景图,展示当前的研究成就以及未来可能取得的进展,从而进一步推动这一新兴且极具前景的研究方向。

总而言之,我们的主要贡献包括以下三个方面:

  1. 全面回顾:对VLM在视觉识别任务中的应用进行系统综述,包括图像分类、目标检测和语义分割。据我们所知,这是首个专注于视觉识别的VLM综述,为该研究领域提供了现有研究的全景图以及全面的总结与分类。
  2. 最新进展:研究了VLM在视觉识别领域的最新进展,包括对多项公共数据集上的现有工作的全面基准测试和讨论。
  3. 研究方向:提出了VLM在视觉识别中的若干研究挑战和潜在研究方向。

本综述的其余部分组织如下:

  • 第2节介绍了视觉识别范式的发展以及相关综述;
  • 第3节描述了VLM的基础知识,包括广泛使用的深度网络架构、预训练目标、预训练框架和下游任务;
  • 第4节介绍了VLM预训练和评估中常用的数据集;
  • 第5节回顾并分类了VLM的预训练方法;
  • 第6和第7节系统性回顾了VLM的迁移学习和知识蒸馏方法;
  • 第8节对多项广泛采用的数据集上的方法进行了基准测试;
  • 第9节分享了VLM研究的一些有前景的方向。

background

本节首先介绍视觉识别训练范式的发展历程及其如何逐步演变为视觉-语言模型(VLM)预训练与零样本预测的范式。随后,我们将介绍用于视觉识别的视觉-语言模型的发展历程,并讨论一些相关的综述,以突出本文的范围和贡献。

2.1 视觉识别的训练范式

视觉识别训练范式的发展大致可分为以下五个阶段:(1) 传统机器学习与预测,(2) 从零开始深度学习与预测,(3) 监督预训练、微调与预测,(4) 无监督预训练、微调与预测,以及 (5) 视觉-语言模型预训练与零样本预测。以下将详细介绍、比较并分析这五种训练范式。

2.1.1 传统机器学习与预测

在深度学习时代之前,视觉识别研究主要依赖特征工程,即通过人工设计的特征,结合轻量级学习模型,将手工设计的特征分类为预定义的语义类别。然而,这种范式需要领域专家为特定的视觉识别任务设计有效的特征,这对复杂任务的适应性较差,且缺乏良好的扩展性。

2.1.2 从零开始深度学习与预测

随着深度学习的出现,视觉识别研究通过利用端到端可训练的深度神经网络(DNN)取得了巨大成功。这种方法规避了复杂的特征工程,让研究者能够专注于神经网络架构的设计,以学习更有效的特征。例如,ResNet通过跳跃连接设计实现了非常深的网络,并能够利用大规模人工标注数据在具有挑战性的ImageNet基准上取得前所未有的性能。然而,从传统机器学习向深度学习的转变也带来了两大挑战:

  1. 在从零开始深度学习训练的经典设置下,DNN的训练收敛速度较慢;
  2. 训练DNN需要大规模、任务特定且由人工标注的数据。

2.1.3 监督预训练、微调与预测

在这里插入图片描述

随着研究发现从标注的大规模数据集中学习到的特征可以迁移到下游任务,从零开始深度学习与预测的范式逐渐被监督预训练、微调与预测的范式所取代。该新范式(如图2(a)所示)通过监督损失在大规模标注数据(如ImageNet)上对DNN进行预训练,然后使用任务特定的训练数据对预训练模型进行微调【11】。由于预训练的DNN已经学习了某些视觉知识,这种方法可以加速网络的收敛,并帮助在有限的任务特定数据上训练出性能优异的模型。

2.1.4 无监督预训练、微调与预测

尽管监督预训练、微调与预测在许多视觉识别任务上取得了最先进的性能,但其在预训练阶段需要大规模标注数据。为减少这一限制,研究者提出了一种新的学习范式:无监督预训练、微调与预测【12】【13】,该方法探索了自监督学习,通过未标注数据学习有用且可迁移的表示,如图2(b)所示。为此,提出了各种自监督训练目标【12】【41】,包括用于建模跨图像块关系的掩码图像建模(masked image modelling)【41】和通过对比样本来学习判别特征的对比学习(contrastive learning)【12】等。自监督预训练的模型随后通过标注的任务特定数据进行微调。由于这种范式在预训练中不需要标注数据,可以利用更多的训练数据来学习有用且可迁移的特征,从而在性能上优于监督预训练【12】【13】。

2.1.5 VLM预训练与零样本预测

尽管监督或无监督的预训练与微调方法可以改善网络的收敛速度,但仍然需要通过标注的任务特定数据进行微调,如图2(a)和(b)所示。受到自然语言处理领域的巨大成功【14】【15】【16】的启发,一种新的深度学习范式——视觉-语言模型预训练与零样本预测被提出用于视觉识别,如图2©所示。在这种范式中,通过从几乎无限量的网络图像-文本对中学习,VLM利用特定的视觉-语言目标【10】【18】【19】进行预训练,捕获丰富的视觉-语言知识,并能通过匹配任何给定图像和文本的嵌入来实现零样本预测(无需微调)。

与预训练与微调范式相比,这种新范式能够有效利用大规模的网络数据,并在不进行任务特定微调的情况下实现零样本预测。现有研究主要从以下三个方面改进VLM:

  1. 收集大规模且有信息量的图像-文本数据;
  2. 设计高容量模型以从大数据中进行有效学习;
  3. 设计新的预训练目标以学习更有效的VLM。

本文通过系统综述这一新的视觉-语言学习范式,旨在为现有的VLM研究提供清晰的全景图,讨论所面临的挑战以及未来的发展方向,从而推动这一充满挑战但极具前景的研究领域。

2.2 用于视觉识别的VLM发展

在这里插入图片描述

自CLIP【10】的提出以来,与视觉识别相关的VLM研究取得了显著进展。我们从以下三个方面概述VLM在视觉识别中的发展,如图3所示:

  1. 预训练目标:从“单一目标”到“多目标混合”。早期的VLM【10】【17】通常采用单一的预训练目标,而近期的VLM【18】【42】引入了多种目标(例如对比、对齐和生成目标),通过探索这些目标之间的协同作用,开发出更稳健的VLM并在下游任务中实现更好的性能。
  2. 预训练框架:从“多独立网络”到“统一网络”。早期的VLM【10】【17】采用了双塔式(two-tower)预训练框架,而近期的VLM【43】【44】尝试使用单塔式(one-tower)预训练框架,在一个统一的网络中对图像和文本进行编码,这种方法不仅减少了GPU内存的使用,还提高了跨模态数据的通信效率。
  3. 下游任务:从简单任务到复杂任务。早期的VLM【10】【17】主要专注于图像级别的视觉识别任务,而近期的VLM【45】【46】则更加通用化,能够应用于复杂的密集预测任务,这些任务通常需要定位相关的知识。

2.3 相关综述

据我们所知,这是第一篇针对多种视觉识别任务综述VLM的文章。已有的一些相关综述集中在VLM用于视觉-语言任务方面,例如视觉问答【47】、视觉推理中的自然语言处理【48】和短语定位【49】。例如,Li等人【50】讨论了视觉-语言任务的进展,包括VLM在多种任务特定方法中的预训练。Du等人【51】和Chen等人【52】对视觉-语言任务中的VLM预训练进行了综述【47】【48】【49】。Xu等人【53】和Wang等人【54】分享了多模态学习在多模态任务上的最新进展。

与上述综述不同,我们针对视觉识别任务综述了VLM的研究进展,主要涵盖以下三个方面:

  1. VLM预训练在视觉识别任务中的最新进展;
  2. 从VLM到视觉识别任务的两种典型迁移方法;
  3. VLM预训练方法在视觉识别任务上的基准测试。

3 VLM 基础

VLM预训练【10】【17】旨在通过预训练学习图像与文本之间的关联,从而实现对视觉识别任务的高效零样本预测【6】【55】【56】。在图像-文本对【20】【21】的基础上,VLM首先使用文本编码器和图像编码器提取图像和文本特征【6】【14】【57】【58】,然后通过特定的预训练目标学习视觉-语言关联【10】【17】。因此,VLM可以通过匹配任意给定图像和文本的嵌入,以零样本方式评估在未见数据上的性能【10】【17】。本节介绍了VLM预训练的基础内容,包括用于提取图像和文本特征的常见网络架构、建模视觉-语言关联的预训练目标、VLM预训练框架以及VLM评估的下游任务。

3.1 网络架构

VLM预训练依赖于深度神经网络从预训练数据集 D = { x n I , x n T } n = 1 N D = \{x^I_n, x^T_n\}^N_{n=1} D={xnI,xnT}n=1N 中提取图像和文本特征,其中 x n I x^I_n xnI x n T x^T_n xnT 分别表示一个图像样本和其配对的文本样本。深度神经网络包含一个图像编码器 f θ f_\theta fθ 和一个文本编码器 f ϕ f_\phi fϕ,分别将图像和文本(来自图像-文本对 { x n I , x n T } \{x^I_n, x^T_n\} {xnI,xnT})编码为图像嵌入 z n I = f θ ( x n I ) z^I_n = f_\theta(x^I_n) znI=fθ(xnI) 和文本嵌入 z n T = f ϕ ( x n T ) z^T_n = f_\phi(x^T_n) znT=fϕ(xnT)。本节介绍了VLM预训练中广泛采用的深度神经网络架构。

3.1.1 图像特征学习的架构

用于学习图像特征的网络架构主要包括两类:基于卷积神经网络(CNN)的架构和基于Transformer的架构。

CNN架构:不同的卷积网络(如VGG【5】、ResNet【6】和EfficientNet【59】)被设计用于学习图像特征。其中,ResNet【6】作为VLM预训练中最受欢迎的卷积网络之一,通过在卷积块之间引入跳跃连接来缓解梯度消失和爆炸问题,从而支持非常深的网络。为了更好地提取特征并建模视觉-语言关系,一些研究【10】对原始网络架构【6】【59】进行了改进。例如,改进ResNet时,引入了ResNet-D【60】,采用了抗锯齿的rect-2模糊池化【61】,并用Transformer多头注意力【58】中的注意力池化替代了全局平均池化。

Transformer架构:近年来,Transformer在图像分类【57】、目标检测【62】和语义分割【63】等视觉识别任务中得到了广泛应用。作为一种标准的图像特征学习Transformer架构,ViT【57】由多层Transformer模块堆叠而成,每个模块由一个多头自注意力层和一个前馈网络组成。输入图像首先被分割为固定大小的图像块,经过线性投影和位置嵌入后送入Transformer编码器。一些研究【10】【18】【64】通过在Transformer编码器之前增加归一化层对ViT进行了改进。

3.1.2 文本特征学习的架构

Transformer及其变体【14】【16】【58】被广泛用于学习文本特征。标准的Transformer【58】采用了编码器-解码器结构,其中编码器包含6个模块,每个模块包括一个多头自注意力层和一个多层感知机(MLP);解码器也由6个模块组成,每个模块包含一个多头注意力层、一个掩码多头注意力层和一个MLP。大多数VLM研究(如CLIP【10】)采用了标准的Transformer【58】,并在GPT2【16】的基础上稍作修改,从头开始训练,而未使用GPT2权重进行初始化。

3.2 VLM 预训练目标

VLM预训练的核心是设计多种视觉-语言预训练目标【10】【12】【14】【19】【42】【65】【66】【67】,以学习丰富的视觉-语言关联。预训练目标主要分为三大类:对比目标(Contrastive Objectives)、生成目标(Generative Objectives)和对齐目标(Alignment Objectives)。

3.2.1 对比目标

对比目标通过拉近配对样本、拉远其他样本在特征空间中的距离,训练VLM学习判别性表征【10】【12】【65】。

图像对比学习:旨在通过使查询图像与其正样本(如数据增强后的图像)更接近,同时与负样本(如其他图像)更远,来学习判别性图像特征【12】【13】。给定一批大小为 ( B ) 的图像,对比学习目标(如InfoNCE【68】及其变体【12】【13】)的公式如下:
L I InfoNCE = − 1 B ∑ i = 1 B log ⁡ exp ⁡ ( z i I ⋅ z + I / τ ) ∑ j = 1 , j ≠ i B + 1 exp ⁡ ( z i I ⋅ z j I / τ ) ( 1 ) L_{I}^{\text{InfoNCE}} = -\frac{1}{B} \sum_{i=1}^{B} \log \frac{\exp(z_i^I \cdot z_+^I / \tau)}{\sum_{j=1, j \neq i}^{B+1} \exp(z_i^I \cdot z_j^I / \tau)} (1) LIInfoNCE=B1i=1Blogj=1,j=iB+1exp(ziIzjI/τ)exp(ziIz+I/τ)(1)

其中, z i I z_i^I ziI 是查询嵌入, z j I z_j^I zjI 是关键嵌入, z I z_I zI 表示 z i I z_i^I ziI 的正样本,其他样本为负样本。 τ \tau τ 是控制表征密度的温度超参数。

图像-文本对比学习:通过拉近成对图像和文本的嵌入,同时拉远其他样本,实现判别性图像-文本表征的学习【10】【17】。通常通过最小化对称的图像-文本InfoNCE损失来实现:
L I T InfoNCE = L I → T + L T → I , L_{IT}^{\text{InfoNCE}} = L_{I \to T} + L_{T \to I}, LITInfoNCE=LIT+LTI,其中 L I → T L_{I \to T} LIT比较查询图像和文本关键特征, L T → I L_{T \to I} LTI比较查询文本和图像关键特征: L I → T = − 1 B ∑ i = 1 B log ⁡ exp ⁡ ( z i I ⋅ z i T / τ ) ∑ j = 1 B exp ⁡ ( z i I ⋅ z j T / τ ) , ( 2 ) L_{I \to T} = -\frac{1}{B} \sum_{i=1}^B \log \frac{\exp(z_i^I \cdot z_i^T / \tau)}{\sum_{j=1}^B \exp(z_i^I \cdot z_j^T / \tau)},(2) LIT=B1i=1Blogj=1Bexp(ziIzjT/τ)exp(ziIziT/τ),(2)
L T → I = − 1 B ∑ i = 1 B log ⁡ exp ⁡ ( z i T ⋅ z i I / τ ) ∑ j = 1 B exp ⁡ ( z i T ⋅ z j I / τ ) , ( 3 ) L_{T \to I} = -\frac{1}{B} \sum_{i=1}^B \log \frac{\exp(z_i^T \cdot z_i^I / \tau)}{\sum_{j=1}^B \exp(z_i^T \cdot z_j^I / \tau)},(3) LTI=B1i=1Blogj=1Bexp(ziTzjI/τ)exp(ziTziI/τ),(3)其中 z I z^I zI z T z^T zT 分别表示图像和文本嵌入。

图像-文本-标签对比学习:将监督对比学习【69】引入到图像-文本对比学习中【65】,公式如下:
L I → T ITL = − ∑ i = 1 B 1 ∣ P ( i ) ∣ ∑ k ∈ P ( i ) log ⁡ exp ⁡ ( z i I ⋅ z k T / τ ) ∑ j = 1 B exp ⁡ ( z i I ⋅ z j T / τ ) , ( 4 ) L_{I \to T}^{\text{ITL}} = -\sum_{i=1}^B \frac{1}{|P(i)|} \sum_{k \in P(i)} \log \frac{\exp(z_i^I \cdot z_k^T / \tau)}{\sum_{j=1}^B \exp(z_i^I \cdot z_j^T / \tau)},(4) LITITL=i=1BP(i)1kP(i)logj=1Bexp(ziIzjT/τ)exp(ziIzkT/τ),(4)
L T → I ITL = − ∑ i = 1 B 1 ∣ P ( i ) ∣ ∑ k ∈ P ( i ) log ⁡ exp ⁡ ( z i T ⋅ z k I / τ ) ∑ j = 1 B exp ⁡ ( z i T ⋅ z j I / τ ) , ( 5 ) L_{T \to I}^{\text{ITL}} = -\sum_{i=1}^B \frac{1}{|P(i)|} \sum_{k \in P(i)} \log \frac{\exp(z_i^T \cdot z_k^I / \tau)}{\sum_{j=1}^B \exp(z_i^T \cdot z_j^I / \tau)},(5) LTIITL=i=1BP(i)1kP(i)logj=1Bexp(ziTzjI/τ)exp(ziTzkI/τ),(5)其中 k ∈ P ( i ) = { k ∣ k ∈ B , y k = y i } k \in P(i) = \{k | k \in B, y_k = y_i\} kP(i)={kkB,yk=yi} y y y 是图像-文本对的类别标签。

3.2.2 生成目标

生成目标通过训练网络生成图像或文本数据【12】【70】、语言生成【14】【19】或跨模态生成【42】,学习语义特征。

掩码图像建模(Masked Image Modelling):通过随机屏蔽输入图像的一部分并训练编码器重建被屏蔽部分,学习跨图像块的关联【41】【70】:
L MIM = − 1 B ∑ i = 1 B log ⁡ f θ ( x i I ∣ x ^ i I ) , ( 6 ) L_{\text{MIM}} = -\frac{1}{B} \sum_{i=1}^B \log f_\theta(x_i^I | \hat{x}_i^I),(6) LMIM=B1i=1Blogfθ(xiIx^iI),(6)其中 x i I x_i^I xiI x ^ i I \hat{x}_i^I x^iI 分别表示图像的屏蔽部分和未屏蔽部分。

掩码语言建模(Masked Language Modelling):NLP中广泛采用的预训练目标【14】,随机屏蔽一定比例的文本标记(如BERT【14】的15%),并通过未屏蔽的标记重建:
L MLM = − 1 B ∑ i = 1 B log ⁡ f ϕ ( x i T ∣ x ^ i T ) , ( 7 ) L_{\text{MLM}} = -\frac{1}{B} \sum_{i=1}^B \log f_\phi(x_i^T | \hat{x}_i^T),(7) LMLM=B1i=1Blogfϕ(xiTx^iT),(7)其中 x i T x_i^T xiT x ^ i T \hat{x}_i^T x^iT 分别表示文本的屏蔽标记和未屏蔽标记。

掩码跨模态建模(Masked Cross-Modal Modelling):结合掩码图像建模和掩码语言建模【42】,屏蔽图像块和文本标记并通过未屏蔽部分重建:
L MCM = − 1 B ∑ i = 1 B [ log ⁡ f θ ( x i I ∣ x ^ i I , x ^ i T ) + log ⁡ f ϕ ( x i T ∣ x ^ i I , x ^ i T ) ] . ( 8 ) L_{\text{MCM}} = -\frac{1}{B} \sum_{i=1}^B \left[ \log f_\theta(x_i^I | \hat{x}_i^I, \hat{x}_i^T) + \log f_\phi(x_i^T | \hat{x}_i^I, \hat{x}_i^T) \right].(8) LMCM=B1i=1B[logfθ(xiIx^iI,x^iT)+logfϕ(xiTx^iI,x^iT)].(8)

图像到文本生成(Image-to-Text Generation):通过训练网络根据配对图像逐步生成描述文本,捕获细粒度视觉-语言关联【19】:
L ITG = − ∑ l = 1 L log ⁡ f θ ( x l T ∣ x < l T , z I ) , ( 9 ) L_{\text{ITG}} = -\sum_{l=1}^L \log f_\theta(x_l^T | x_{<l}^T, z^I),(9) LITG=l=1Llogfθ(xlTx<lT,zI),(9)其中 L L L是文本标记数, z I z^I zI是与 x T x^T xT 配对的图像嵌入。

3.2.3 对齐目标

对齐目标通过全局图像-文本匹配【71】【72】或局部区域-单词匹配【45】【67】在嵌入空间中对齐图像-文本对。

图像-文本匹配:通过度量图像和文本的匹配概率 ( S(·) ),用二元分类损失建模全局图像-文本关联:
L I T = p log ⁡ S ( z I , z T ) + ( 1 − p ) log ⁡ ( 1 − S ( z I , z T ) ) , ( 10 ) L_{IT} = p \log S(z^I, z^T) + (1-p) \log(1-S(z^I, z^T)),(10) LIT=plogS(zI,zT)+(1p)log(1S(zI,zT)),(10)其中 p = 1 p=1 p=1表示图像和文本匹配, p = 0 p=0 p=0 表示不匹配。

区域-单词匹配:对图像区域和单词进行局部匹配【45】【67】,适用于目标检测等密集视觉任务:
L R W = p log ⁡ S r ( r I , w T ) + ( 1 − p ) log ⁡ ( 1 − S r ( r I , w T ) ) , ( 11 ) L_{RW} = p \log S_r(r^I, w^T) + (1-p) \log(1-S_r(r^I, w^T)),(11) LRW=plogSr(rI,wT)+(1p)log(1Sr(rI,wT)),(11)其中 r I r^I rI w T w^T wT表示区域-单词对, S r ( ⋅ ) S_r(·) Sr() 度量区域与单词的相似性。

3.3 VLM预训练框架

在这里插入图片描述

VLM预训练的框架主要包括双塔式(Two-Tower)、双腿式(Two-Leg)和单塔式(One-Tower)。

  • 双塔式框架【10】【17】:图像和文本分别用两个编码器独立编码(如图5(a))。
  • 双腿式框架【19】【42】:增加多模态融合层,使图像和文本特征可以交互(如图5(b))。
  • 单塔式框架【43】【44】:在单一编码器中统一视觉和语言学习,提升跨模态通信效率(如图 5(c))。

3.4 评估设置与下游任务

本节介绍了VLM评估中广泛采用的设置和下游任务。评估设置包括零样本预测和线性探测;下游任务包括图像分类、目标检测、语义分割、图像-文本检索和动作识别。

3.4.1 零样本预测

零样本预测是评估VLM泛化能力的最常用方式【10】【17】【18】【64】【84】。在这种设置下,预训练的VLM无需任务特定的微调,直接应用于下游任务【10】。

  • 图像分类【5】【6】:目标是将图像分类为预定义类别。VLM通过比较图像和文本的嵌入实现零样本图像分类,其中常采用“提示工程”(Prompt Engineering)生成任务相关提示词,例如“a photo of a [label]”【10】。
  • 语义分割【56】:目标是为图像中的每个像素分配一个类别标签。预训练的VLM通过比较图像像素和文本的嵌入实现语义分割任务的零样本预测。
  • 目标检测【11】【55】:目标是定位并分类图像中的物体,这是许多视觉应用的重要任务。通过从辅助数据集【85】【86】中学习的物体定位能力,预训练的VLM通过比较给定物体提议(object proposals)和文本的嵌入实现目标检测的零样本预测。
  • 图像-文本检索【87】:目标是在一种模态中,根据另一种模态的提示检索所需样本,包括文本到图像检索(基于文本检索图像)和图像到文本检索(基于图像检索文本)。

3.4.2 线性探测

线性探测在VLM评估中被广泛采用【10】。它冻结预训练的VLM,并训练一个线性分类器对VLM编码的嵌入进行分类,以评估VLM的表征能力。

  • 图像分类【5】【6】:在此设置中,评估VLM编码特征在图像分类任务中的性能。
  • 动作识别【28】【29】:动作识别任务中,通常对视频片段进行子采样以实现高效识别【10】。

这种评估方法为VLM提供了一个衡量其表征泛化能力的标准,同时不依赖于模型的大规模微调。

4 数据集

在这里插入图片描述
在这里插入图片描述

本节总结了VLM预训练和评估中常用的数据集,详见表1和表2。

4.1 用于VLM预训练的数据集

在VLM预训练中,研究人员从互联网收集了多个大规模图像-文本数据集【10】【17】【20】【21】。与传统人工标注数据集【40】【90】【110】相比,图像-文本数据集【10】【21】规模更大且收集成本更低。例如,最近的图像-文本数据集通常规模达到十亿级别【20】【21】【83】。

除了图像-文本数据集,一些研究【19】【43】【45】【67】使用了辅助数据集来提供额外信息,以便更好地进行视觉-语言建模。例如,GLIP【67】利用了Object365【85】来提取区域级别的特征。有关图像-文本数据集和辅助数据集的详细信息见附录B。

4.2 用于VLM评估的数据集

在VLM评估中采用了许多数据集,如表2所示,包括27个用于图像分类,4个用于目标检测,4个用于语义分割,2个用于图像-文本检索,以及3个用于动作识别的数据集(数据集详细信息见附录C)。

例如,27个图像分类数据集涵盖了从细粒度任务到通用任务的各种视觉识别任务。细粒度任务包括Oxford-IIIT PETS【26】(用于宠物识别)和Stanford Cars【25】(用于汽车识别);通用任务包括ImageNet【40】等。

5 视觉-语言模型预训练

在这里插入图片描述

VLM预训练主要采用三类目标:对比目标、生成目标和对齐目标。本节结合多项研究(详见表3),回顾了这些预训练方法。

5.1 基于对比目标的VLM预训练

对比学习在VLM预训练中被广泛探索,通过设计对比目标来学习判别性的图像-文本特征【10】【64】【113】。

5.1.1 图像对比学习

这一预训练目标旨在学习图像模态中的判别性特征,通常作为辅助目标以充分挖掘图像数据的潜力。例如,SLIP【64】使用标准的InfoNCE损失(见公式1)来学习判别性图像特征。

5.1.2 图像-文本对比学习

在这里插入图片描述

图像-文本对比学习旨在通过对比图像-文本对来学习视觉-语言关联,即拉近配对图像和文本的嵌入,同时拉远其他嵌入【10】。例如,CLIP【10】采用对称的图像-文本InfoNCE损失(见公式2),通过图像和文本嵌入的点积计算相似性(见图6)。预训练的VLM因此能够学习图像-文本关联,从而在下游视觉识别任务中实现零样本预测。

受CLIP成功的启发,许多研究从不同角度改进了对称的图像-文本InfoNCE损失。例如,ALIGN【17】通过大规模(18亿对)但噪声较多的图像-文本数据,结合抗噪对比学习,扩大了VLM的预训练规模。一些研究【112】【113】【114】则探索了数据高效的VLM预训练方法,使用更少的图像-文本对完成预训练。

具体来说,DeCLIP【113】引入了最近邻监督,利用相似对的信息,使其能够在有限数据上进行高效预训练。OTTER【112】采用最优传输方法,将图像和文本进行伪配对,从而大幅减少所需的训练数据。ZeroVL【114】通过去偏的数据采样和硬币翻转混合的数据增强,充分利用有限的数据资源。

另一些研究【18】【116】【129】旨在通过跨多种语义层次的图像-文本对比学习,进行全面的视觉-语言关联建模。例如,FILIP【18】引入了区域-单词对齐,将细粒度的视觉-语言对应知识纳入对比学习。PyramidCLIP【116】构建了多语义层次,并在跨层次和同层次之间进行对比学习,从而实现了高效的VLM预训练。

此外,一些研究进一步通过增强图像-文本对改进了预训练【125】【126】【127】【128】。例如,LA-CLIP【126】和ALIP【127】利用大语言模型为给定图像生成合成描述,而RA-CLIP【125】检索相关的图像-文本对以进行数据增强。同时,为了促进跨模态数据的高效交互,研究【43】【44】尝试在单一编码器中统一视觉和语言的学习。

5.1.3 图像-文本-标签对比学习

在这里插入图片描述

这种预训练方法将图像分类标签【65】引入到图像-文本对比中(如公式4所示),并将图像、文本和分类标签编码到共享空间中(见图7)。该方法结合了带有图像标签的监督预训练和带有图像-文本对的无监督VLM预训练。例如,UniCL【65】的研究表明,这种预训练方法能够同时学习判别性和任务特定(如图像分类)的特征。后续研究【115】使用约9亿对图像-文本对扩展了UniCL的规模,在各种下游识别任务中表现卓越。

5.1.4 讨论

对比目标通过使正样本对的嵌入相似、负样本对的嵌入相异,鼓励VLM学习判别性视觉和语言特征【10】【17】。更具判别性的特征通常会带来更自信和准确的零样本预测。然而,对比目标存在以下两点局限性:

  1. 联合优化正负样本对的过程复杂且具有挑战性【10】【17】;
  2. 需要一个启发式的温度超参数来控制特征的判别性,如3.2.1节所述。

5.2 基于生成目标的VLM预训练

生成式VLM预训练通过学习生成图像或文本(包括掩码图像建模、掩码语言建模、掩码跨模态建模以及图像到文本生成)来学习语义知识。

5.2.1 掩码图像建模

在这里插入图片描述

掩码图像建模通过屏蔽并重建图像来学习图像的上下文信息(见公式6)。在掩码图像建模(例如MAE【41】和BeiT【70】)中,图像的部分块被屏蔽,编码器被训练在未屏蔽的块条件下重建被屏蔽的部分,如图8所示。例如,FLAVA【42】采用了这种方法来提升图像上下文信息的建模能力。

5.2.2 掩码语言建模

在这里插入图片描述

掩码语言建模是NLP中广泛使用的预训练目标(见公式7),也在VLM预训练中证明了其在文本特征学习中的有效性。其方法是屏蔽每段输入文本中的一部分标记,并训练网络预测被屏蔽的标记,如图9所示。遵循BERT【14】的方法,FLAVA【42】屏蔽了15%的文本标记并利用其余标记重建,以建模跨单词的关联关系。FIBER【71】也将掩码语言建模【14】作为VLM预训练目标之一,用于提取更优的语言特征。

5.2.3 掩码跨模态建模

掩码跨模态建模同时屏蔽和重建图像块和文本标记(见公式8),继承了掩码图像建模和掩码语言建模的优势。其方法是屏蔽一定比例的图像块和文本标记,并训练VLM通过未屏蔽的图像块和文本标记的嵌入重建被屏蔽部分。例如,FLAVA【42】屏蔽了约40%的图像块【70】和15%的文本标记【14】,并使用多层感知机(MLP)预测被屏蔽的块和标记,从而捕捉丰富的视觉-语言对应信息。

5.2.4 图像到文本生成

在这里插入图片描述

图像到文本生成旨在为给定图像生成描述性文本,通过训练VLM预测标记化文本来捕捉细粒度的视觉-语言关联。其方法首先将输入图像编码为中间嵌入,然后解码为描述性文本(见公式9)。例如,COCA【19】、NLIP【123】和PaLI【83】使用标准的编码器-解码器架构和图像描述目标进行训练,如图10所示。

5.2.5 讨论

生成目标通过跨模态生成或掩码图像/语言/跨模态建模工作,鼓励VLM学习丰富的视觉、语言及视觉-语言上下文信息,以实现更优的零样本预测。因此,生成目标通常被作为其他VLM预训练目标的补充,用于学习更多上下文信息【19】【42】【113】。

5.3 基于对齐目标的VLM预训练

对齐目标通过学习判断给定的文本是否正确描述给定图像,使VLM能够对配对的图像和文本进行对齐。这类目标主要分为全局图像-文本匹配和局部区域-单词匹配。

5.3.1 图像-文本匹配

图像-文本匹配通过直接对齐配对的图像和文本建模全局的图像-文本关联(见公式10)。例如,在一批图像-文本对中,FLAVA【42】使用分类器和二元分类损失,将给定图像与其配对文本进行匹配。FIBER【71】遵循【72】的方法,通过成对相似性挖掘难负样本,从而实现更好的图像与文本对齐。

5.3.2 区域-单词匹配

在这里插入图片描述

区域-单词匹配目标通过对齐配对的图像区域和文本标记建模局部细粒度的视觉-语言关联,这对目标检测和语义分割等密集预测任务的零样本预测非常有益。例如,GLIP【67】、FIBER【71】和DetCLIP【45】将目标分类的logits替换为区域-单词对齐得分,即区域视觉特征与逐标记文本特征之间的点积相似性,如图11所示。

5.3.3 讨论

对齐目标通过预测给定图像和文本数据是否匹配,学习视觉-语言的关联关系。这种方法简单易优化,并且可以通过局部对齐图像和文本数据轻松扩展至细粒度的视觉-语言关联建模。然而,这些目标通常无法充分学习视觉或语言模态内部的关联信息。因此,对齐目标通常作为其他VLM预训练目标的辅助损失,用于增强跨视觉和语言模态的关联建模【42】【121】。

5.4 总结与讨论

总体而言,VLM预训练通过不同的跨模态目标建模视觉-语言关联,例如图像-文本对比学习、掩码跨模态建模、图像到文本生成,以及图像-文本/区域-单词匹配。同时,还探索了各种单模态目标以充分挖掘各自模态的数据潜力,例如针对图像模态的掩码图像建模和针对文本模态的掩码语言建模。

从全局层面来看,近期的VLM预训练专注于学习视觉-语言的全局关联,这对于图像级别的识别任务(如图像分类)非常有益。与此同时,一些研究【45】【46】【67】【71】【129】【130】【131】通过区域-单词匹配建模局部细粒度的视觉-语言关联,旨在提升目标检测和语义分割等密集预测任务的表现。

6 VLM 迁移学习

除了直接将预训练的VLM用于下游任务的零样本预测外,迁移学习通过提示调优【31】【132】、特征适配器【33】【34】等方法调整VLM以适应下游任务。本节介绍了VLM迁移学习的动机、常见设置以及三类方法:提示调优、特征适配器和其他方法。

6.1 迁移学习的动机

尽管预训练的VLM展现出强大的泛化能力,但在应用于下游任务时通常面临两类差距:

  1. 图像和文本分布差距:例如,下游数据集可能具有特定任务的图像风格和文本格式;
  2. 训练目标差距:VLM通常以任务无关的目标进行训练,学习的是通用概念,而下游任务通常涉及任务特定的目标,如粗粒度或细粒度分类、区域级别或像素级别的识别等。

6.2 常见迁移学习设置

为弥补第6.1节描述的领域差距,探索了三种迁移学习设置:

  • 监督迁移:使用全部标注的下游数据微调预训练的VLM;
  • 小样本监督迁移:只使用少量标注的下游样本,具有更高的标注效率;
  • 无监督迁移:使用未标注的下游数据微调VLM,尽管更具挑战性,但具有更高的潜力和效率。

6.3 常见迁移学习方法

在这里插入图片描述

如表4所示,现有的VLM迁移方法主要分为三类:提示调优、特征适配器和其他方法。

6.3.1 通过提示调优进行迁移

受到NLP中“提示学习”【165】的启发,许多VLM提示学习方法被提出,用于通过寻找最佳提示词将VLM适配到下游任务,而无需微调整个模型。提示调优的方法主要包括文本提示调优、视觉提示调优,以及文本-视觉联合提示调优。

文本提示调优:不同于手动设计提示词的提示工程【165】,文本提示调优通过为每个类别生成可学习的提示词,在少量标注样本的帮助下探索更高效的提示词。例如:

  • CoOp【31】:通过上下文优化为单一类别名称学习上下文词,将类别标签扩展为句子“[V]1, [V]2, …, [V]m [label]”,其中[V]表示可学习的词向量。
  • CoCoOp【32】:通过条件上下文优化为每张图像生成特定提示词,缓解提示学习中因样本数量有限导致的过拟合问题。
  • SoftCPT【141】:在多个小样本任务上同时微调VLM,利用多任务学习提升性能。
  • UPL【143】:通过伪标签样本的自训练优化可学习提示,实现无监督提示调优。

视觉提示调优:通过调节图像编码器的输入实现VLM迁移【148】【166】。例如:

  • VP【147】:通过添加可学习的图像扰动项来调整输入图像,从而最小化识别损失。
  • RePrompt【148】:将检索机制集成到视觉提示调优中,以利用下游任务的知识。

文本-视觉联合提示调优:同时调节文本和图像输入,利用多模态联合优化提示词的优势。例如:

  • UPT【149】:统一提示调优方法,同时优化文本和图像提示。
  • MAPLE【151】:通过对齐视觉提示与对应的语言提示,实现文本提示与图像提示的互相促进。

6.3.2 通过特征适配器进行迁移

特征适配器通过插入额外的轻量级模块微调VLM,用于调整图像或文本特征。例如:

  • Clip-Adapter【33】:在CLIP的语言和图像编码器后插入可训练的线性层,并冻结CLIP的参数。
  • Tip-Adapter【34】:通过使用小样本标注图像的嵌入作为适配器权重,无需训练即可完成迁移。

特征适配器灵活有效,适合不同下游任务,但需要修改网络结构,可能无法应用于涉及知识产权问题的VLM。

6.3.3 其他迁移方法

其他迁移方法包括直接微调【162】、架构修改【163】和交叉注意力机制【157】【158】。例如:

  • Wise-FT【162】:结合微调后模型的权重与原始模型的权重,从下游任务中学习新信息。
  • MaskCLIP【163】:通过修改CLIP的图像编码器架构提取密集图像特征。
  • CALIP【158】:引入无参数注意力机制以增强视觉和文本特征之间的交互。

6.4 总结与讨论

提示调优和特征适配器是两种主要的VLM迁移方法,分别通过修改输入文本/图像或调整图像/文本特征实现迁移。这两种方法引入的参数非常有限,并冻结了原始VLM的参数,因而迁移效率高。

尽管大多数研究遵循小样本监督迁移【31】【32】【132】【134】,但近期研究表明,无监督VLM迁移在各种任务中表现竞争力【143】【144】【160】,这激励了更多关于无监督迁移的研究。

7 VLM 知识蒸馏

VLM捕获了涵盖广泛视觉和文本概念的通用知识。一些研究探讨了如何蒸馏这种通用且稳健的VLM知识,以应对目标检测和语义分割等复杂的密集预测任务。本节介绍了从VLM蒸馏知识的动机,以及在语义分割和目标检测任务上的知识蒸馏方法。

7.1 VLM知识蒸馏的动机

与通常保持原始VLM架构不变的迁移学习【31】【132】【136】不同,VLM知识蒸馏将通用且稳健的VLM知识蒸馏到任务特定模型中,而不受VLM架构的限制,从而在解决各种密集预测任务时受益于任务特定的设计【36】【173】【174】。例如,知识蒸馏允许将VLM的通用知识转移到目标检测任务,同时利用先进的检测架构,如Faster R-CNN【55】和DETR【62】。

7.2 常见的知识蒸馏方法

在这里插入图片描述

由于VLM通常使用针对图像级表示设计的架构和目标进行预训练,大多数VLM知识蒸馏方法专注于将图像级知识转移到区域或像素级任务,如目标检测和语义分割。表5列出了常见的VLM知识蒸馏方法。

7.2.1 目标检测的知识蒸馏

开放词汇目标检测【193】旨在检测由任意文本描述的目标,即超出基础类别的任何类别的目标。由于VLM(如CLIP)使用亿级图像-文本对进行训练,覆盖了非常广泛的词汇,许多研究探索通过蒸馏VLM知识来扩展检测器的词汇量。例如:

  • ViLD【36】:将VLM知识蒸馏到一个两阶段检测器中,强制其嵌入空间与CLIP的图像编码器一致;
  • HierKD【186】:探索分层的全局-局部知识蒸馏;
  • RKD【187】:探索基于区域的知识蒸馏,以更好地对齐区域级和图像级嵌入;
  • ZSD-YOLO【198】:引入自标注数据增强,利用CLIP提升目标检测性能;
  • DetPro【37】:引入检测提示技术,学习连续提示表示以进行开放词汇目标检测;
  • PB-OVD【189】:利用VLM预测的伪边界框训练目标检测器;
  • P3OVD【197】:结合提示驱动的自训练方法,通过细粒度提示调优改进VLM生成的伪标签。

7.2.2 语义分割的知识蒸馏

开放词汇语义分割利用VLM扩展分割模型的词汇量,旨在分割由任意文本描述的像素(即超出基础类别的任何类别)。例如:

  • CLIPSeg【175】:引入轻量级Transformer解码器,将CLIP扩展至语义分割;
  • LSeg【176】:最大化CLIP文本嵌入与分割模型编码的像素级图像嵌入之间的相关性;
  • ZegCLIP【174】:利用CLIP生成语义掩码,并引入关系描述符以缓解基础类别上的过拟合问题;
  • MaskCLIP+【163】:通过VLM预测的像素级伪标签进行知识蒸馏;
  • FreeSeg【185】:首先生成掩码提议,然后对其进行零样本分类。

此外,弱监督语义分割的知识蒸馏结合VLM和弱监督信号(如图像级标签)进行分割。例如:

  • CLIP-ES【184】:通过设计Softmax函数和基于类别注意的亲和模块,利用CLIP改进类别激活图,缓解类别混淆问题;
  • CLIMS【183】:利用CLIP知识生成高质量的类别激活图,从而改进弱监督语义分割。

7.3 总结与讨论

总体而言,大多数VLM研究在两个密集视觉识别任务上探索知识蒸馏:目标检测和语义分割。其中,目标检测的研究致力于更好地对齐图像级和目标级表示,而语义分割的研究则专注于解决图像级和像素级表示之间的不匹配问题。

知识蒸馏方法可以按其技术方法分类,包括:

  1. 特征空间蒸馏:通过强制VLM编码器与检测或分割编码器之间的嵌入一致实现;
  2. 伪标签蒸馏:利用VLM生成的伪标签对检测或分割模型进行正则化。

与VLM迁移学习相比,VLM知识蒸馏具有更高的灵活性,允许使用与原始VLM不同的下游网络。

8 性能比较

本节对第5-7节中回顾的VLM预训练、VLM迁移学习和VLM知识蒸馏方法进行了比较、分析和讨论。

8.1 VLM预训练的性能

在这里插入图片描述
在这里插入图片描述

正如第3.4节所述,零样本预测是一种广泛采用的评估设置,用于在不进行任务特定微调的情况下评估VLM在未见任务上的泛化能力。本小节展示了VLM在图像分类、目标检测和语义分割等视觉识别任务上的零样本预测性能。

表6展示了在11个广泛使用的图像分类任务上的评估结果。根据表6和图14,可以得出以下结论:

  1. VLM性能与训练数据规模相关:如图14的第一个图所示,增加预训练数据的规模能够带来持续的性能提升;
  2. VLM性能与模型规模相关:在相同的预训练数据下,增加模型规模可以显著提高VLM性能(见图14的第二个图);
  3. 大规模图像-文本训练数据提升零样本性能:如表6所示,COCA【19】在ImageNet上实现了最先进的性能,而FILIP【18】在11项任务中表现始终优秀。

VLM的出色泛化能力主要归因于以下三点:

  1. 大数据:网络上的图像-文本对几乎无限,VLM通常在百万或十亿规模的样本上进行训练,这涵盖了非常广泛的视觉和语言概念,从而具备强大的泛化能力;
  2. 大模型:相比传统视觉识别模型,VLM通常采用更大的模型(如COCA中的ViT-G模型具有20亿参数),这些模型能有效从大数据中学习;
  3. 任务无关的学习:VLM预训练的监督通常是通用且任务无关的。相比传统视觉识别中的任务特定标签,图像-文本对中的文本提供了多样且丰富的信息监督,有助于训练出适用于多种下游任务的通用模型。

关于密集视觉任务(如目标检测和语义分割)的VLM预训练研究较少【45】【46】【67】【71】【129】【131】。表7和表8总结了这些任务上的零样本预测性能,表明VLM在密集预测任务中也能实现有效的零样本预测。然而,这些研究结果受限于目前这一领域的探索不足以及在密集视觉任务上使用的VLM数量有限。

VLM的局限性
尽管随着数据和模型规模的增加,VLM的性能显著提升,但仍存在以下局限性:

  1. 当数据或模型规模持续增加时,性能可能趋于饱和,进一步扩展不再提升性能【113】【202】;
  2. 大规模数据的预训练需要大量计算资源,例如CLIP ViT-L【10】需要256个V100 GPU和288小时的训练时间;
  3. 大模型在训练和推理阶段引入了巨大的计算和内存开销。

8.2 VLM迁移学习的性能

在这里插入图片描述
本节总结了VLM迁移学习在监督迁移、小样本监督迁移和无监督迁移设置下的性能。表9展示了在11个广泛使用的图像分类数据集(如EuroSAT【104】、UCF101【29】)上的结果。

从表9可以得出以下结论:

  1. 迁移学习对下游任务性能提升显著:例如,在ImageNet上,监督迁移的Wise-FT、少样本监督迁移的CoOp和无监督迁移的TPT分别将准确率提高了10.9%、1.7%和0.8%。迁移学习通过利用任务特定的标注或未标注数据,有效缓解了预训练VLM与下游数据之间的领域差距。
  2. 小样本监督迁移性能落后于监督迁移:例如,Wise-FT【162】在ImageNet上的准确率为87.1%,而CuPL【160】仅为76.6%,主要原因是VLM在小样本标注数据上容易过拟合,从而降低泛化能力。
  3. 无监督迁移可与小样本监督迁移相媲美:例如,无监督的UPL【143】在2-shot CoOp【31】上提升了0.4%,无监督的TPT【144】与16-shot CoOp【31】性能相当。这是因为无监督迁移能够访问大量未标注的下游数据,同时过拟合风险较低。然而,无监督迁移也面临诸如伪标签噪声等挑战,值得进一步研究。

8.3 VLM知识蒸馏的性能

本节展示了VLM知识蒸馏在目标检测和语义分割任务中的性能提升。表10和表11分别总结了在广泛使用的目标检测数据集(如COCO【106】、LVIS【107】)和语义分割数据集(如PASCAL VOC【90】、ADE20k【111】)上的蒸馏性能。

可以观察到,VLM知识蒸馏在检测和分割任务中带来了显著的性能提升。这主要是因为知识蒸馏引入了通用且稳健的VLM知识,同时利用了检测和分割模型的任务特定设计。

8.4 总结

从表6-11可以得出以下结论:

  1. 性能:VLM预训练通过设计良好的预训练目标,在广泛的图像分类任务上实现了出色的零样本预测。然而,在密集视觉识别任务(如区域或像素级检测和分割)上的VLM预训练发展仍然滞后。迁移学习在多种图像分类数据集和视觉骨干网络中取得了显著进展,但监督和小样本监督迁移仍需要标注图像,而更有潜力但更具挑战性的无监督迁移研究相对较少。
  2. 基准测试:大多数VLM迁移学习研究采用相同的预训练VLM作为基准模型,并在相同的下游任务上进行评估,这大大简化了基准测试。然而,VLM预训练研究由于采用不同的数据(如CLIP【10】、LAION400M【21】和CC12M【79】)和网络(如ResNet【6】、ViT【57】和BERT【14】),加之部分研究使用非公开的训练数据【10】【18】【83】,使得公平的基准测试极具挑战性。相比之下,VLM知识蒸馏研究在下游任务中采用不同的任务特定骨干网络(如ViLD采用Faster R-CNN),进一步增加了基准测试的复杂性。

9 未来方向

VLM通过有效利用网络数据、零样本预测以及开放词汇的视觉识别,在视觉识别任务中取得了巨大成功。本节总结了当前研究中的挑战并提出了一些未来可能的研究方向。

9.1 VLM预训练的挑战与潜在方向

  1. 细粒度视觉-语言关联建模
    通过学习局部视觉-语言对应知识【45】【67】,VLM能够识别超越图像的块和像素,这对目标检测和语义分割等密集预测任务尤为重要。然而,目前在这一方向上的研究非常有限【45】【46】【67】【71】【129】【131】,期待未来更多针对零样本密集预测任务的细粒度VLM预训练研究。

  2. 视觉与语言学习的统一
    Transformer【57】【58】的出现使得通过统一方式对图像和文本进行标记成为可能,而不是像现有VLM【10】【17】中使用两个独立网络。统一视觉与语言学习能够提高数据模态间的交互效率,从而提升训练效果与效率。虽然已有一些研究【43】【44】关注这一问题,但还需要更多努力以开发更可持续的VLM。

  3. 多语言VLM预训练
    现有大多数VLM只使用单一语言(如英语)【10】【17】进行训练,这可能引入文化与区域偏差【77】【79】,并限制其在其他语言场景中的应用。通过多语言文本【119】【120】预训练VLM,可以学习同一含义在不同语言中的文化视觉特征【20】,从而使VLM能够在不同语言环境中高效工作。未来多语言VLM研究值得进一步探索。

  4. 数据高效的VLM
    目前的研究通常依赖大规模训练数据和高强度计算,影响了可持续性。通过有限的图像-文本数据训练高效的VLM可以显著缓解这一问题。例如,除了学习每个图像-文本对,还可以通过对图像-文本对之间的监督信息【112】【113】挖掘更多有用信息。

  5. 结合大型语言模型(LLM)的VLM预训练
    近期研究【126】【127】利用LLM丰富VLM预训练中的语言知识,具体来说,通过LLM扩充原始图像-文本对中的文本内容,从而提供更丰富的语言信息,帮助更好地学习视觉-语言关联。未来关于LLM在VLM预训练中的探索值得更多关注。

9.2 VLM迁移学习的挑战与潜在方向

  1. 无监督VLM迁移
    现有VLM迁移研究大多使用需要标注数据的监督或小样本监督设置,而后者容易过拟合于少量标注样本。无监督VLM迁移可以利用大量未标注数据,降低过拟合风险。未来研究中对无监督VLM迁移的关注值得期待。

  2. 基于视觉提示/适配器的VLM迁移
    大多数现有研究集中在文本提示学习【31】,而视觉提示学习或视觉适配器在各种密集预测任务中能够提供像素级适配支持,却鲜有关注。未来的研究中需要更多探索基于视觉的VLM迁移方法。

  3. 测试时的VLM迁移
    现有研究通常通过在每个下游任务上微调VLM(即提示学习)进行迁移,这在面对大量下游任务时显得重复且低效。测试时的VLM迁移允许在推理阶段动态调整提示词,从而避免现有迁移学习中的重复训练。预计这一方向将在未来得到更多关注。

  4. 结合LLM的VLM迁移
    与提示工程和提示学习不同,一些研究【160】【161】利用LLM【172】生成更能描述下游任务的文本提示。这种方法自动化程度高且几乎不需要标注数据,未来可以进一步探索LLM在VLM迁移学习中的应用。

9.3 VLM知识蒸馏的挑战与潜在方向

  1. 多VLM知识蒸馏
    从多个VLM中蒸馏知识,并通过协同蒸馏不同VLM的知识来获得协同效应,这一方向值得探索。

  2. 更多视觉识别任务的知识蒸馏
    除了目标检测和语义分割,未来可以将VLM知识蒸馏扩展到实例分割、全景分割、行人再识别等任务,以探索更多可能的应用场景。


http://www.kler.cn/a/406630.html

相关文章:

  • Python 快速入门(上篇)❖ Python基础知识
  • c# npoi操作excel
  • 知识图谱介绍
  • 格式化输入输出【专辑优质版】
  • shell--第一次作业
  • Elastic 和 Red Hat:加速公共部门 AI 和机器学习计划
  • 【代码随想录day36】【C++复健】1049. 最后一块石头的重量 II ; 494. 目标和 ;474.一和零
  • MIT 6.S081 | 操作系统 | Lab1: Xv6 and Unix utilities
  • SSRF漏洞利用
  • Unity——使用Unity制作BIM全景视频、图片
  • C#语言入门
  • 02 DHCP搭建
  • 服务器被隔离导致无法登录
  • 运维之网络安全抓包—— WireShark 和 tcpdump
  • 在SpringBoot项目中集成MongoDB
  • 测评部署和管理 WordPress 最方便的面板
  • Sqlsugar Oracle 配置 和服务注册以及使用
  • 图文详解Docker下配置、测试Redis
  • 前端高能组件库 Shadcn-UI
  • Chroma致茂Chroma61815回收式电网模拟电源
  • SQL 分页查询详解
  • [表达式]七个古墓
  • leetcode 919.完全二叉树插入器
  • MacOS通过X11转发远程运行virt-manager进行虚机分配
  • 笔记记录 k8s-install
  • Ubuntu文件系统简记