典型常见的基于知识蒸馏的目标检测方法总结三
来源:Google学术2023-2024的顶会顶刊论文
NeurIPS 2022:Towards Efficient 3D Object Detection with Knowledge Distillation
为3D目标检测提出了一种知识蒸馏的Benchmark范式,包含feature的KD,Logit的cls和reg的KD,还有label KD。
feature的KD:instance-level的RoI feature的蒸馏
Logit KD:使用教师的classification和regression与学生的输出进行蒸馏
Label KD:将教师模型的预测和GT的标签作为混合label,与学生的输出的logits进行蒸馏
Total Distillation loss function
WACV 2021:Data-free Knowledge Distillation for Object Detection
我们提出了用于目标检测的深度反演(DeepInversion for Object Detection,DIODE),以实现无需数据支持的知识蒸馏,适用于经过目标检测任务训练的神经网络。从无需数据的角度来看,DIODE仅基于一个现成的预训练检测网络,无需任何先验领域知识、生成器网络或预计算激活值,即可合成图像。DIODE依赖于两个关键组件:首先,一套广泛的可微分增强技术,用于提高图像保真度和蒸馏效果;其次,一种新颖的自动边界框和类别采样方案,用于图像合成,从而生成大量具有多样化空间和类别目标的图像。生成的图像使得从教师检测器到学生检测器的知识蒸馏成为可能,且学生检测器是从零开始初始化的。
在一系列广泛的实验中,我们证明了DIODE能够匹配原始训练分布,从而始终比分布外的代理数据集实现更有效的知识蒸馏。在无需数据的设置中,由于缺乏原始领域知识,分布外的代理数据集不可避免地会出现,而DIODE则有效解决了这一问题。
NeurIPS 2021:Instance-Conditional Knowledge Distillation for Object Detection
将instance的GT坐标信息和类别信息通过instance encoder和MLP编码成learnable embedding作为cross-attention的query
从教师网络的FPN的多尺度表征特征整合为AT,从AT从中key和vuale,联合GT的信息编码为query进行cross-Attention,最后(mij, VTj)作为instance-conditional Knowledge
Instance-Conditional Distillation
Auxiliary Task
TPAMI 2023:Structured knowledge distillation for accurate and efficient object detection
NeurIPS 2022:Structural Knowledge Distillation for Object Detection
使用1-SSIM loss作为衡量教师模型与学生模型的特征差异
AAAI 2022:Knowledge Distillation for Object Detection via Rank Mimicking and Prediction-Guided Feature Imitation
CVPR 2021:General Instance Distillation for Object Detection
General Instance Selection Module:学习General Instance 集合
Feature-based Distillation:对GI集合中的instance进行RoI Align之后做特征蒸馏
Relation-based Distillation:对GI集合中做correlation Distillation
Response-based Distillation:对GI集合中的instance学习mask掩码矩阵M,进行Response logits蒸馏
ICCVW 2021:Photon-Limited Object Detection using Non-local Feature Matching and Knowledge Distillation
提出对photon-abundant的目标检测器进行训练作为教师模型,对photon-limited的目标检测器作为学生模型,来增强低光条件下的目标检测
CVPR 2023:Object-Aware Distillation Pyramid for Open-Vocabulary Object Detection
开放词汇目标检测旨在使在固定对象类别集上训练的目标检测器具备检测由任意文本查询描述的对象的泛化能力。先前的方法采用知识蒸馏从预训练的视觉语言模型(PVLM)中提取知识并将其转移到检测器中。然而,由于非自适应的提议裁剪和单层级特征模仿过程,它们在知识提取过程中存在信息破坏问题,并且知识转移效率低下。
为了弥补这些局限性,我们提出了一个对象感知蒸馏金字塔(Object-Aware Distillation Pyramid,OADP)框架,包括一个对象感知知识提取(Object-Aware Knowledge Extraction,OAKE)模块和一个蒸馏金字塔(Distillation Pyramid,DP)机制。在从 PVLM 中提取对象知识时,前者自适应地变换对象提议,并采用对象感知掩膜注意力来获取精确而完整的对象知识。后者引入全局蒸馏和块蒸馏以实现更全面的知识转移,从而弥补对象蒸馏中缺失的关系信息。
Object-Aware Knowledge Extraction (OAKE) module
Distillation Pyramid:Object Distillation,Global Distillation,Block Distillation,都是L1 loss,其一从Faster RCNN出来,其二从CLIP中出来
CVPR 2021:Distilling object detectors via decoupled features
把图片划分为前景object区域和背景background区域,根据mask来划分,对前景和背景分别对特征和分类logits进行蒸馏
CVPR 2023:itKD: Interchange transfer-based knowledge distillation for 3d object detection
在本文中,我们首先提出了一种自动编码器风格的框架,该框架通过基于交换转移的知识蒸馏实现通道级压缩和解压缩。为了学习教师网络的地图视图特征,教师网络和学生网络的特征分别独立地通过共享自动编码器;在此,我们使用一种压缩表示损失,它将来自学生网络和教师网络的通道级压缩知识作为一种正则化约束。解压缩后的特征沿相反方向进行转移,以缩小交换重建中的差距。最后,我们提出了一种头部注意力损失,以匹配由多头自注意力机制提取的三维目标检测信息。通过大量实验,我们验证了我们的方法能够训练出与三维点云检测任务高度适配的轻量级模型,并使用知名公共数据集(如 Waymo 和 nuScenes)证明了其优越性。
NeurIPS 2021:Distilling object detectors with feature richness
根据检测头对每个特征图上空间点的cls最大分数来定义了一个feature richness score,使用feature richness score作为FPN特征层的每一层专属的mask,使用这一mask矩阵Sij来进行FPN特征层和分类检测头的知识蒸馏
AAAI 2022:LGD: Label-guided self-distillation for object detection
把GT的label信息通过PointNet encoder编码为256维度特征,与目标的appearance encoder(使用前景目标区域掩码之后的特征)的特征通过inter-object relation adapter做cross-attention得到interacted embeddings,并使用Intra-object Knowledge mapper得到一个unifed的混合特征,与原始backbone的特征作知识蒸馏
NeurIPS 2022:Pkd: General distillation framework for object detectors via pearson correlation coefficient
使用PCC系数损失作为特征之间的蒸馏损失
CVPR 2022:Focal and Global Knowledge Distillation for Detectors
使用GcBlock提取全局的relation进行蒸馏,使用spatial和channel Attention mask和前景和背景mask来蒸馏局部的特征和attention
ECCV 2022:Prediction-guided distillation for dense object detection
对于特征图的每一个位置,定义quality score如下
对于一个instance object,选取特征图中对于anchor内top-k个位置,对他们的quality分数使用MLE得到高斯分布,并计算得到mask注意力矩阵
根据分类头和回归头的不同Mask矩阵,对分类和回归的featue进行蒸馏
此外,还进行了Attention的蒸馏
CVPR 2023:PointDistiller: Structured Knowledge Distillation Towards Efficient and Compact 3D Detection
使用importance score来计算Top-N的sample后的feature,As和At,然后使用graph建模为图表征向量,对于每个graph的蒸馏损失,ϕ表示每个图的learning weights,dynamic graph convolution卷积后的学生与教师特征
ICCV 2021:G-DetKD: Towards General Distillation Framework for Object Detectors via Contrastive and Semantic-guided Feature Imitation
Semantic-Guided Feature Imitation (SGFI
探索学生的multi-level RoI features与教师的RoI features之间的correlation,并计算similarity scores来整合一个单层的学生RoI特征,与教师的单层RoI特征进行MSE知识蒸馏
Exploiting Region Relationship with Contrastive KD (CKD)
使用对比学习InfoNCE损失,定义教师与学生的同一个RoI特征为positive samples,不同的RoI特征为negative samples
ECCV 2022:Lidar distillation: Bridging the beam-induced domain gap for 3d object detection
在本文中,我们提出了激光雷达蒸馏(LiDAR Distillation)方法,以弥合不同激光雷达光束在三维目标检测中所导致的域差距。
在许多实际应用中,量产机器人和车辆所使用的激光雷达点通常比大规模公开数据集中的光束数量要少。此外,随着激光雷达升级为具有不同光束数量的其他产品型号,利用先前版本高分辨率传感器采集的标注数据变得颇具挑战。尽管在域自适应三维检测方面近期取得了一些进展,但大多数方法都难以消除由光束引起的域差距。我们发现,在训练过程中使源域的点云密度与目标域的点云密度保持一致至关重要。
**受此发现的启发,我们提出了一个渐进式框架来减轻由光束引起的域偏移。在每次迭代中,我们首先通过对高光束点云进行下采样来生成低光束伪激光雷达。然后采用师生框架从具有更多光束的数据中提取丰富信息。**在 Waymo、nuScenes 和 KITTI 数据集上使用三种不同的基于激光雷达的检测器进行的大量实验证明了我们的激光雷达蒸馏方法的有效性。值得注意的是,我们的方法在推理时不会增加任何额外的计算成本。
ICCV 2021:Deep Structured Instance Graph for Distilling Object Detectors
把ROI之间建模为graph特征,使用graph Distillation loss进行知识蒸馏
CVPR 2022:Single-Domain Generalized Object Detection in Urban Scene via Cyclic-Disentangled Self-Distillation
在本文中,我们致力于提升目标检测器的泛化能力。我们考虑一种现实但具有挑战性的场景,即单域广义目标检测(Single-Domain Generalized Object Detection,Single-DGOD),其目标是仅使用一个源域进行训练,学习一个在许多未见过的目标域上表现良好的目标检测器。对于单域广义目标检测而言,提取包含对象内在特征的域不变表示(Domain-Invariant Representations,DIR)非常重要,这有助于提高对未见过域的鲁棒性。
因此,我们提出一种方法,即循环解耦自蒸馏(cyclic-disentangled self-distillation),在无需域相关注释(如域标签)监督的情况下,将域不变表示从特定域表示中解耦出来。具体来说,首先提出一个循环解耦模块,从输入视觉特征中循环提取域不变表示。通过循环操作,无需依赖域相关注释即可提升解耦能力。然后,以域不变表示为教师,我们设计一个自蒸馏模块,进一步增强泛化能力。
在实验中,我们的方法在城市场景目标检测中进行评估。五种天气条件下的实验结果表明,我们的方法相比基线方法获得了显著的性能提升。特别是在夜间 - 晴天场景中,我们的方法比基线方法高出 3%,这表明我们的方法有助于提升泛化能力。
在完好光照天气下进行训练之后,迁移到特定天气和具有挑战性的场景进行目标检测
CVPR 2022:Open-vocabulary one-stage detection with hierarchical visual-language knowledge distillation
开放词汇目标检测旨在检测训练集之外的新目标类别。先进的开放词汇两阶段检测器采用实例级视觉到视觉知识蒸馏,以使检测器的视觉空间与预训练视觉语言模型(Pretrained Visual-Language Model,PVLM)的语义空间对齐。然而,在更高效的单阶段检测器中,缺乏类别无关的对象提议阻碍了对未见对象的知识蒸馏,导致性能严重下降。
在本文中,我们提出一种分层视觉语言知识蒸馏方法,即 HierKD,用于开放词汇单阶段检测。具体而言,探索了一种全局级知识蒸馏,将未见类别的知识从 PVLM 转移到检测器。此外,我们将所提出的全局级知识蒸馏与常见的实例级知识蒸馏相结合,以同时学习已见和未见类别的知识。
ACM MM 2022:Imitated Detectors: Stealing Knowledge of Black-box Object Detectors
深度神经网络在许多实际应用中展现出了巨大潜力,然而其知识却面临着通过暴露的服务(例如应用程序编程接口)被盗取的风险。与通常研究的分类模型提取不同,由于问题域数据收集的充分性和效率问题,对于更具挑战性的目标检测任务尚无相关研究。
在本文中,我们首次揭示了黑盒受害目标检测器可以在不知道模型结构和训练数据的情况下被轻易复制。具体而言,我们将其视为黑盒知识蒸馏,并提出了一个名为 “模仿检测器” 的师生框架,以将受害模型的知识转移到模仿模型中。
为了加速问题域数据的构建,我们通过生成合成图像来扩展问题域数据集,在其中我们应用文本 - 图像生成过程,并提供由对象类别和自然场景组成的短文本输入;为了提升反馈信息,我们旨在通过引入迭代对抗攻击策略充分挖掘受害模型的潜在知识,在该策略中我们向受害模型提供可迁移的对抗样本,使受害模型提供更多样化且包含更多信息的预测。
在不同设置下的多个数据集上进行的大量实验表明,我们的方法实现了最高的模型提取准确率,并且在问题域数据集中大幅优于其他模型窃取方法。
NeurIPS 2023:
教师模型与学生模型之间的表征差距是知识蒸馏(KD)中一个新兴的话题。为了缩小差距并提升性能,当前的方法常常采用复杂的训练方案、损失函数和特征对齐方式,这些方法具有任务特定性和特征特定性。
在本文中,我们指出这些方法的本质是去除特征中的噪声信息并提炼有价值的信息,并提出一种名为 DiffKD 的新颖知识蒸馏方法,使用扩散模型显式地对特征进行去噪和匹配。我们的方法基于这样的观察:由于学生模型的容量较小,学生模型的特征通常比教师模型的特征包含更多噪声。
为了解决这个问题,我们提议使用由教师模型特征训练的扩散模型对学生模型特征进行去噪。
这使我们能够在精炼后的干净特征与教师模型特征之间进行更好的蒸馏。此外,我们引入了一个带有线性自动编码器的轻量级扩散模型以降低计算成本,并引入一个自适应噪声匹配模块来提高去噪性能。大量实验表明,DiffKD 在各种类型的特征上均有效,并在图像分类、目标检测和语义分割任务中始终取得了最先进的性能。
CVPR 2022:Knowledge Distillation via the Target-aware Transformer
知识蒸馏已成为提高小型神经网络性能的实际标准。先前的大多数工作都提议以一对一的空间匹配方式将教师模型的表征特征回归到学生模型。然而,人们往往忽略了这样一个事实:由于架构差异,相同空间位置上的语义信息通常会有所不同。这极大地破坏了一对一蒸馏方法的基本假设。
为此,我们提出了一种新颖的一对多空间匹配知识蒸馏方法。具体而言**,我们允许教师特征的每个像素根据其相似度(由目标感知Transformer生成)被蒸馏到学生特征的所有空间位置。**我们的方法在各种计算机视觉基准测试中,如 ImageNet、Pascal VOC 和 COCOStuff10k,显著超越了最先进的方法。
WACV 2022:Improving Object Detection by Label Assignment Distillation
使用教师模型的预测来计算 Label Assignment Cost,并根据cost来分配学生的label,对学生的训练进行蒸馏指导
ICCV 2023:Spatial Self-Distillation for Object Detection with Inaccurate Bounding Boxes
由于高质量标注数据获取成本高昂,或者偶尔不可避免地会出现标注质量较低(例如微小目标)的情况,通过不精确边界框监督进行目标检测引起了广泛关注。以往的工作通常利用高度依赖类别信息的多示例学习(MIL)来选择并优化低质量的边界框。这些方法由于没有挖掘空间信息,存在目标偏移、群体预测以及局部主导等问题。
在本文中,我们启发式地提出了一种基于空间自蒸馏的目标检测器(Spatial Self-Distillation based Object Detector,SSD-Det),通过挖掘空间信息以自蒸馏的方式来优化不精确的边界框。SSD-Det 利用空间位置自蒸馏(Spatial Position Self-Distillation,SPSD)模块来挖掘空间信息,并采用一种交互结构将空间信息与类别信息相结合,从而构建出一个高质量的候选框集合。为进一步改进选择流程,SSD-Det 中引入了空间一致性自蒸馏(Spatial Identity Self-Distillation,SISD)模块,以获取空间置信度来帮助选出最佳的候选框。在带有噪声边界框标注的 MS - COCO 和 VOC 数据集上进行的实验验证了我们方法的有效性,并且该方法取得了当前最先进的性能。
CVPR 2023:Instance relation graph guided source-free domain adaptive object detection
无监督域适应(Unsupervised Domain Adaptation,UDA)是解决域偏移问题的一种有效方法。具体而言,UDA 方法试图对齐源域和目标域的表示,以提高在目标域上的泛化能力。此外,UDA 方法基于在适应过程中源数据可访问的假设进行工作。
然而,在现实场景中,由于隐私法规、数据传输限制或专有数据问题,带标签的源数据往往受到限制。无源域适应(Source-Free Domain Adaptation,SFDA)设置旨在通过在不访问源数据的情况下将源训练模型适应目标域来缓解这些问题。
在本文中,我们针对自适应目标检测任务探索无源域适应设置。为此,我们提出一种新的训练策略,用于在没有源数据的情况下将源训练的目标检测器适应目标域。更确切地说,我们设计一种新的对比损失,通过利用给定目标域输入的对象关系来增强目标表示。这些对象实例关系使用实例关系图(Instance Relation Graph,IRG)网络进行建模,然后用于指导对比表示学习。此外,我们利用师生框架有效地将知识从源训练模型蒸馏到目标域。在多个目标检测基准数据集上进行的大量实验表明,所提出的方法能够有效地将源训练的目标检测器适应目标域,优于最先进的域自适应检测方法。
CVPR 2023:Boosting 3D Object Detection by Simulating Multimodality on Point Clouds
本文提出了一种新方法,通过教导单模态(激光雷达)三维目标检测器模拟遵循多模态(激光雷达 - 图像)检测器的特征和响应来提升其性能。该方法仅在训练单模态检测器时需要激光雷达 - 图像数据,一旦训练良好,在推理时仅需要激光雷达数据。
我们设计了一个新颖的框架来实现该方法:
(1)响应蒸馏用于聚焦关键响应样本并避免大多数背景样本;
(2)稀疏体素蒸馏用于从估计的关键体素中学习体素语义和关系;
(3)细粒度体素到点蒸馏用于更好地关注小而远的物体的特征;
(4)实例蒸馏用于进一步增强深度特征的一致性。
在 nuScenes 数据集上的实验结果表明,我们的方法优于所有最先进的仅使用激光雷达的三维检测器,甚至在关键的 NDS 指标上超过了基线激光雷达 - 图像检测器,填补了单模态和多模态检测器之间约 72% 的 mAP 差距。
ICCV 2021:Student Customized Knowledge Distillation: Bridging the Gap Between Student and Teacher
知识蒸馏(Knowledge Distillation,KD)将繁琐网络(教师模型)中的隐含知识转移到轻量级网络(学生模型)中,并期望学生模型在没有教师模型知识的情况下比训练时取得更出色的性能。然而,一个与直觉相悖的观点是,由于容量不匹配,更好的教师模型并不一定能培养出更好的学生模型。
为此,我们提出一种新颖的自适应知识蒸馏方法来补充传统方法。所提出的方法名为学生定制知识蒸馏(Student Customized Knowledge Distillation,SCKD),从梯度相似性的角度审视教师模型与学生模型之间的容量不匹配问题。我们将知识蒸馏表述为一个多任务学习问题,以便只有当学生模型能够从学习该知识中受益时,教师模型才将知识转移给学生模型。我们在图像分类、目标检测和语义分割等多个数据集上,使用各种教师 - 学生配置对我们的方法进行了验证。
在每次迭代中,蒸馏损失(包括特征蒸馏损失和logits蒸馏损失)的连接由学生与教师的梯度相似性决定
CVPR 2022:Cross Domain Object Detection by Target-Perceived Dual Branch Distillation
Dual-Branch Self-Attention
跨域目标检测在实际应用中是一项现实且具有挑战性的任务。由于数据分布的巨大差异以及目标域中缺乏实例级标注,其性能会受到影响。现有方法主要关注这两个难题中的一个,尽管在跨域目标检测中它们紧密相关。
为解决此问题,我们提出一种新颖的目标感知双分支蒸馏(Target-perceived Dual-branch Distillation,TDD)框架。通过在统一的师生学习方案中整合源域和目标域的检测分支,它可以有效减少域差异并生成可靠的监督信息。
具体而言,我们首先在两个域之间引入一个独特的目标提议感知器(Target Proposal Perceiver)。它可以通过利用来自迭代交叉注意力的目标提议上下文,自适应地增强源检测器对目标图像中对象的感知能力。然后,我们设计了一种简洁的双分支自蒸馏策略用于模型训练,该策略可以通过两个分支中的自蒸馏逐步整合来自不同域的互补对象知识。
AAAI 2023:Attention-Based Depth Distillation with 3D-Aware Positional Encoding for Monocular 3D Object Detection
单目三维目标检测是一项低成本但颇具挑战性的任务,因为它仅需依据单张图像输入就生成准确的三维定位信息。近期开发的深度辅助方法通过使用显式深度图作为中间特征取得了不错的成果,这些深度图要么由单目深度估计网络预先计算得出,要么与三维目标检测联合评估得到。然而,来自估计深度先验的不可避免的误差可能会导致语义信息与三维定位出现错位,进而造成特征模糊和次优预测结果。
为缓解这一问题,我们提出了 ADD,即一种带有三维感知位置编码的基于注意力的深度知识蒸馏框架。与此前采用基于立体视觉或激光雷达的教师模型的知识蒸馏框架不同,我们构建的教师模型与学生模型具有相同的架构,但额外将真实深度作为输入。得益于我们的教师模型设计,我们的框架无缝衔接、不存在域差异、易于实现,并且与目标级别的真实深度相兼容。
具体而言,我们利用中间特征和响应来进行知识蒸馏。考虑到长距离三维依赖关系,我们为学生模型的自适应提出了三维感知自注意力和目标感知交叉注意力模块。我们进行了大量实验,以验证我们的框架在极具挑战性的 KITTI 三维目标检测基准测试中的有效性。我们在三个具有代表性的单目检测器上实现了该框架,并且相对于基线模型,在没有增加额外推理计算成本的情况下,取得了最先进的性能。
3D-Aware Attention Based Feature Distillation
Target-Aware Attention Based Response Distillation
PR 2022:Multi-View correlation distillation for incremental object detection
为增量目标检测提出了一种multi-view的correlation Distillation方法
channel-wise correlation
spatial-wise correlation
instance-wise correlation
CVPR 2022:Point-Level Region Contrast for Object Detection Pre-Training
受Mocov2的启发,提出了point-level region contrast的对比学习预训练方法。
在这项工作中,我们提出了点级区域对比(point-level region contrast)这一用于目标检测任务的自监督预训练方法。该方法的提出受目标检测中两个关键因素 —— 定位和识别的启发。准确的定位更有利于在像素级或点级进行操作的模型,而正确的识别通常依赖于对目标更具整体性的区域级视角。
将这一视角融入预训练中,我们的方法通过直接从不同区域采样单个点对来进行对比学习。与每个区域的聚合表示相比,我们的方法对输入区域质量的变化更具鲁棒性,并且还能让我们在训练期间通过在线知识蒸馏隐式地改进初始区域分配。在处理无监督设置中遇到的不完美区域时,这两个优势都非常重要。
实验表明,点级区域对比方法在多个任务和数据集的目标检测及分割的最先进预训练方法基础上有所改进,而且我们提供了大量的消融研究和可视化内容来帮助理解。
NeurIPS 2022:Shadow Knowledge Distillation: Bridging Offline and Online Knowledge Transfer
知识蒸馏根据教师模型在蒸馏过程中是否经过预训练以及是否持续存在,通常可分为离线蒸馏和在线蒸馏两类。离线蒸馏可以使用现有的模型,但性能总是逊于在线蒸馏。
在本文中,我们首先通过实证表明,造成它们性能差距的关键因素在于从学生模型到教师模型的反向蒸馏,而非训练方式。通过利用这种反向蒸馏对预训练的教师模型进行微调以使其适应学生模型,离线蒸馏能够获得有竞争力的性能提升。然而,这一微调过程仍会耗费大量的训练资源。
为缓解这一困境,我们提出了 SHAKE,这是一个简单却有效的影子知识转移框架,它在离线蒸馏和在线蒸馏之间架起桥梁,在精度和效率之间进行权衡。
具体而言,我们在教师骨干网络上额外构建一个影子头,使其作为预训练教师模型预测结果的模仿者,即影子。然后,利用这个影子头作为代理教师,即时与学生模型进行双向蒸馏。
通过这种方式,SHAKE 不仅能用预训练模型的知识更新这个对学生模型有感知的代理教师,还极大地优化了增强型反向蒸馏的成本。
NeurIPS 2021:An Empirical Study of Adder Neural Networks for Object Detection
加法神经网络(AdderNets)凭借仅使用加法运算就在图像分类任务中展现出了令人瞩目的性能,相较于采用乘法构建的传统卷积神经网络,其能效更高。与分类任务相比,在自动驾驶和人脸检测等实际应用中,通过加法神经网络来降低现代目标检测器的能耗有着强烈的需求。
在本文中,我们对用于目标检测的加法神经网络进行了实证研究。我们首先揭示出,由于加法神经网络的特征方差相对较大,预训练的加法神经网络骨干网络中的批量归一化统计量不应被冻结。此外,我们在网络的 “颈部” 部分插入了更多的快捷连接,并设计了一种新的特征融合架构,以避免加法层产生稀疏特征。
我们开展了大量的消融研究,对加法神经网络检测器的若干设计选择进行了探索。我们还在 COCO 和 PASCAL VOC 基准数据集上与最先进的方法进行了对比。具体而言,所提出的加法神经网络版的全卷积单阶段目标检测器(Adder FCOS)在 COCO 验证集上实现了 37.8% 的平均精度(AP),展示出了与卷积神经网络对应方法相当的性能,同时能耗降低了约 1.4 倍。
TPAMI 2023:Online Knowledge Distillation via Mutual Contrastive Learning for Visual Recognition
无教师在线知识蒸馏(Knowledge Distillation,KD)旨在协同训练多个学生模型的集合,并让它们相互蒸馏知识。尽管现有的在线知识蒸馏方法取得了不错的性能,但它们往往将类别概率作为核心知识类型,忽略了有价值的特征表征信息。
我们提出了一种用于在线知识蒸馏的互对比学习(Mutual Contrastive Learning,MCL)框架。
互对比学习的核心思想是以在线的方式在一组网络之间进行对比分布的相互作用与传递。我们的互对比学习能够聚合跨网络的嵌入信息,并最大化两个网络之间互信息的下界。这使得每个网络都能从其他网络学习额外的对比知识,从而产生更好的特征表示,进而提升视觉识别任务的性能。
除了最后一层之外,我们将互对比学习扩展到中间层,并通过元优化训练执行自适应层匹配机制。
在图像分类以及向视觉识别任务的迁移学习实验中表明,分层的互对比学习相较于最先进的在线知识蒸馏方法能够持续带来性能提升。这种优势表明,分层的互对比学习能够引导网络生成更好的特征表示。
考虑在多个网络的不同instance之间进行对比学习,属于多个网络的同一类别的样本特征接近,属于多个网络的不同类别的样本特征推远。
ECCV 2022:Masked Generative Distillation
Mask生成式蒸馏(Masked Generative Distillation,MGD)示意图。我们首先随机对学生模型的特征进行Mask处理。然后,我们利用投影层迫使学生模型依据被Mask的特征生成教师模型的特征。
CVPRW 2021:Distill on the go: Online knowledge distillation in self-supervised learning 自监督对比损失 + 互学习KL散度损失
自监督学习通过解决无需标注的 pretext 预测任务来学习特征表示。对于视觉任务而言,诸如预测旋转、解决拼图之类的 pretext 任务完全是基于输入数据创建的。然而,预测这些已知信息有助于学习对下游任务有用的表示形式。
不过,近期的研究表明,更宽更深的模型从自监督学习中获益要比小模型更多。为解决小模型的自监督预训练问题,我们提出了 “即时蒸馏”(Distill-on-the-Go,DoGo)这一自监督学习范式,它利用单阶段在线知识蒸馏来提升小模型的表示质量。
我们采用深度互学习策略,即两个模型相互协作学习以共同提升彼此。具体来说,每个模型都通过自监督学习以及蒸馏进行训练,蒸馏过程会将每个模型的相似性分数的软最大概率与对等模型的相应概率进行对齐。
我们在多个基准数据集、学习目标以及架构上开展了大量实验,以展示所提方法的潜力。我们的结果表明,在存在噪声标签以及标签有限的情况下,以及在对分布外数据进行泛化时,该方法都能实现显著的性能提升。
CVPR 2021:Multi-Scale Aligned Distillation for Low-Resolution Detection
Teacher学习两种分辨率的输入,并融合为一个独立的Teacher,并引入Cross Feature-level Distillation来蒸馏给低分辨率的学生网络
AAAI 2023:Curriculum Temperature for Knowledge Distillation 动态温度,课程学习
大多数现有的蒸馏方法都忽略了损失函数中温度参数的灵活作用,而是将其固定为一个超参数,只能通过低效的网格搜索来确定。
一般来说,温度控制着两个分布之间的差异,并且能够切实地决定蒸馏任务的难易程度。在学生模型逐步学习的过程中,始终保持恒定的温度,即固定的任务难度水平,通常并非最优选择。
在本文中,我们提出了一种简单的基于课程学习的技术,名为知识蒸馏的课程温度(Curriculum Temperature for Knowledge Distillation,CTKD),它通过一个动态且可学习的温度来控制学生模型学习过程中的任务难度水平。
具体而言,遵循由易到难的课程学习模式,我们依据温度逐步增加蒸馏损失,以对抗的方式提高蒸馏难度。作为一种易于使用的插件技术,课程温度知识蒸馏法能够无缝集成到现有的知识蒸馏框架中,并且只需可忽略不计的额外计算成本就能带来普遍的性能提升。
在 CIFAR-100、ImageNet-2012 和 MS-COCO 数据集上进行的大量实验证明了我们方法的有效性。
ECCV 2022:Self-Regulated Feature Learning via Teacher-free Feature Distillation
以中间特征表示为条件的知识蒸馏往往能带来显著的性能提升。传统的特征蒸馏框架需要额外的教师模型选择 / 训练成本以及复杂的变换,以对齐师生模型之间的特征。
为解决这一问题,我们分析了特征蒸馏中教师模型的作用,并得出了一个有趣的观察结果:额外的教师模型架构并非总是必需的。于是我们提出了 Tf-FD,一种简单却有效的无教师特征蒸馏框架,它在学生模型内部重复利用通道维度和层维度上有意义的特征,在无需额外模型的情况下提供类似教师模型的知识。
具体而言,我们的框架可细分为层内蒸馏和层间蒸馏。层内的 Tf-FD 会进行特征显著性排序,并将知识从同一层内的显著特征传递到冗余特征。
对于层间的 Tf-FD,我们致力于将嵌入在深层表示中的高层语义知识进行蒸馏,以指导浅层的训练。得益于这些自身特征之间的较小差距,Tf-FD 只需优化额外的特征模仿损失,无需复杂的变换。
此外,我们从特征正则化的角度进行了富有洞察力的讨论,以阐明 Tf-FD 的原理。我们在分类和目标检测任务上开展的实验表明,我们的技术在不同模型上以较快的训练速度取得了最先进的成果。
CVPR 2022:Cross-Image Relational Knowledge Distillation for Semantic Segmentation
当前用于语义分割的知识蒸馏(Knowledge Distillation,KD)方法通常引导学生模型去模仿教师模型从单个数据样本中生成的结构化信息。然而,它们忽略了不同图像中像素之间的全局语义关系,而这种关系对知识蒸馏来说是很有价值的。
本文提出了一种新颖的跨图像关系知识蒸馏(Cross-Image Relational KD,CIRKD)方法,该方法侧重于在整个图像之间传递结构化的像素对像素以及像素对区域的关系。其动机在于,一个优秀的教师网络能够依据全局像素依赖关系构建一个结构良好的特征空间。跨图像关系知识蒸馏方法能让学生模型更好地模仿教师模型中结构化的语义关系,从而提升分割性能。
ICCV 2021:Distilling Global and Local Logits with Densely Connected Relations
在常见的知识蒸馏中,多数图像识别模型里的对数概率(logits)是通过全局平均池化来计算的,随后用于学习对高级且与任务相关的知识进行编码。在这项工作中,我们解决了在这种蒸馏情境下全局对数概率转移存在的局限性。
我们指出,这种全局平均池化方式会阻碍信息丰富的空间信息的传递,而空间信息能够提供局部知识以及输入场景中跨上下文的丰富关联信息。
为了利用这些丰富的空间信息,我们提出了一种简单且有效的对数概率蒸馏方法。我们在倒数第二层添加了一个局部空间池化层分支,如此一来,我们的方法拓展了标准的对数概率蒸馏,使其能够学习精细的局部知识以及整体表征。
我们所提出的方法在多个图像分类数据集上,相较于最先进的方法展现出了良好的准确率提升。我们还表明,经过我们在图像分类任务上训练得到的经过蒸馏的学生模型,能够成功应用于目标检测和语义分割任务,这一结果体现了我们方法具有较高的可迁移性。
CVPR 2022:Wavelet Knowledge Distillation: Towards Efficient Image-to-Image Translation
生成对抗网络(Generative Adversarial Networks,GANs)在图像到图像转换方面已经取得了显著成就。然而,由于参数量极为庞大,最先进的生成对抗网络通常存在效率低下以及内存占用量大的问题。
为应对这一挑战,本文首先从频率角度对生成对抗网络的性能进行了研究。结果显示,生成对抗网络,尤其是小型生成对抗网络,缺乏生成高质量高频信息的能力。
为解决这一问题,我们提出了一种新颖的知识蒸馏方法,称为小波知识蒸馏。小波知识蒸馏并非直接对教师模型生成的图像进行蒸馏,而是首先利用离散小波变换将图像分解为不同的频段,然后仅对高频段进行蒸馏。这样一来,学生生成对抗网络就能将更多注意力放在高频段的学习上。
实验表明,我们的方法能使 CycleGAN 实现 7.08 倍的压缩率以及 6.80 倍的加速,且几乎不会出现性能下降的情况。此外,我们还研究了判别器与生成器之间的关系,结果表明判别器的压缩能够提升经过压缩的生成器的性能。
小波知识蒸馏首先将离散小波变换(Discrete Wavelet Transformation,DWT)应用于生成的图像,然后仅对高频段上的差异进行最小化处理。
IJCV 2021:CNN-Based RGB-D Salient Object Detection: Learn, Select, and Fuse
这项工作的目标是为 RGB-D 显著目标检测提供一个系统性的解决方案,该方案在一个统一的框架内处理以下三个方面的问题:模态特定表示学习、互补线索选择以及跨模态互补融合。
为了学习具有判别性的模态特定特征,我们提出了一种分层跨模态蒸馏方案。在该方案中,我们利用从已充分学习的源模态中得到的渐进式预测结果,来监督新模态中的特征层次学习和推理过程。
为了更好地选择互补线索,我们构建了一个残差函数,以便自适应地融合来自配对模态的互补信息。此外,我们还构建了一种自上而下的融合结构,以实现充分的跨模态跨层级交互。
实验结果证明了所提出的跨模态蒸馏方案在从新模态中学习时的有效性、所提出的多模态融合模式在选择和融合跨模态互补信息方面的优势,以及所提出的这些设计在不同任务中的泛化能力。
ECCV 2022:Teaching Where to Look: Attention Similarity Knowledge Distillation for Low Resolution Face Recognition
深度学习在人脸识别基准测试中已经取得了卓越的性能表现,但在处理低分辨率(Low Resolution,LR)图像时,其性能会显著下降。
我们提出了一种注意力相似性知识蒸馏方法,该方法将从高分辨率(High Resolution,HR)网络(作为教师模型)中获取的注意力图转移到低分辨率网络(作为学生模型)中,以提升低分辨率图像的识别性能。
受到人类能够依据从高分辨率图像中获取的先验知识来大致判断低分辨率图像中物体所在区域这一现象的启发,我们利用余弦相似度设计了知识蒸馏损失,以使学生网络的注意力与教师网络的注意力相类似。
在多个与低分辨率人脸相关的基准测试中开展的实验证实,所提出的方法总体上提升了低分辨率场景下的识别性能,并且仅仅通过转移精心构建的注意力图,就超越了现有的最先进成果。