基于知识蒸馏的跨模态目标检测方法总结
ECCV 2022:Cross-modality knowledge distillation network for monocular 3d object detection
Teacher模型:基于LiDAR points训练的3D目标检测模型
Student模型:基于Monocular训练的3D目标检测模型
从image或者LiDAR到BEV特征的转换方法:
BEV Feature-Based Knowledge Distillation
Response-Based Knowledge Distillation
ICCV 2023:DistillBEV: Boosting Multi-Camera 3D Object Detection with Cross-Modal Knowledge Distillation
教师模型:LiDAR-based 3D检测器
学生模型:multi-camera BEV的检测器
feature imitation Distillation
spatial attention imitation Distillation
总的Distillation损失:
CVPR 2023:UniDistill: A Universal Cross-Modality Knowledge Distillation Framework for 3D Object Detection in Bird’s-Eye View
UniDistill easily supports LiDAR-to-camera, camera-to-LiDAR, fusion-to-LiDAR and fusion-to-camera distillation paths.
low-level BEV features are obtained via view-transform and further encoded to be high-level features and response features. 从不同的模态输入,把跨膜态的特征转换为BEV编码特征,然后通过BEV encoder和detection head转换为high-level的BEV features和response features
three distillation losses aligning foreground features are calculated to perform knowledge transfer
feature distillation:从low-level的BEV features中对每一个bounding box 对齐9个特征点进行蒸馏point-wisely aligning the features of 9 crucial points of each ground truth bounding box. 对于每个GT的bounding box均匀采样9个特征点,对于每个GT bounding box,只对这9个特征点的特征响应值进行蒸馏损失的计算
“relation distillation:从high-level的BEV features中转移structural knowledge,结构知识从group-wisely aligning the relationship between 9 crucial points of each ground truth bounding box 对于每个GT bounding box的9个均匀采样点的特征,计算cosine similarty矩阵,大小为9x9
对教师模型和学生模型的9x9的矩阵进行只是蒸馏
response distillation:aligning the heatmaps via Gaussian-like mask for each ground truth bounding box. 将Freg与Fcls max拼接在一起得到Fresp,然后生成一个Gaussian mask,进行response的蒸馏。
总的损失:
ECCV 2024:LabelDistill: Label-guided Cross-modal Knowledge Distillation for Camera-based 3D Object Detection
基于摄像头的三维物体检测领域的最新进展引入了跨模态知识蒸馏方法,旨在利用激光雷达点云中精确的几何信息来缩小与激光雷达三维探测器之间的性能差距。然而,现有的跨模态知识蒸馏方法往往忽视了激光雷达固有的一些缺陷,例如对远处或被遮挡物体测量的模糊性,而这类缺陷不应被传递给图像探测器。
为了减轻激光雷达 “教师模型” 中的这些缺陷,我们提出了一种新方法,该方法利用来自真实标签的无偶然不确定性特征。与传统的标签引导方法不同,我们对教师模型头部的逆函数进行近似处理,以便有效地将标签输入嵌入到特征空间中。这种方法在激光雷达 “教师模型” 之外提供了额外的精准引导,从而提升了图像探测器的性能。
**此外,我们引入了特征划分方法,它能在保留学生模型(图像探测器)独特特征的同时,有效地从教师模态(激光雷达)传递知识,进而最大限度地发挥两种模态的潜力。**实验结果表明,与基线模型相比,我们的方法使平均精度均值(mAP)和 nuScenes 检测分数(NDS)分别提高了 5.1 个百分点和 4.9 个百分点,证明了我们方法的有效性。
Two contribution:LiDAR distillation and label distillation
LiDAR distillation:包括LiDAR feature distillation和LiDAR response distillation
Label Distillation:使用Auto-Encoder把标签编码为特征向量,然后把学生的特征解耦成三部分,其中一部分与label的编码特征进行MSE蒸馏损失。
Feature Partitioning separates the image features into three groups to preserve distinctive image features while learning from LiDAR and label features.
总的损失函数
CVPR 2024:CRKD: Enhanced Camera-Radar Object Detection with Cross-modality Knowledge Distillation
Cross-Stage Radar Distillation (CSRD) LiDAR太密集了,Radar特征更稀疏,设计了基于Radar的特征蒸馏学习,将教师的objectness heatmap特征与学生的radar feature map进行蒸馏。
we design a distillation path between the radar feature map and the scene-level objectness heatmap predicted by the LC teacher model
Mask-Scaling Feature Distillation (MSFD) : to generate a mask M ∈ 1×H×W to only distill information from the foreground region.
Relation Distillation (RelD):compute the affinity matrix describing cosine similarity of the fused feature map.
Response Distillation (RespD)
Overall Loss Function
arXiv 2022:BEVDistill: Cross-Modal BEV Distillation for Multi-View 3D Object Detection
Dense Feature Distillation:根据Gaussian对GT制作mask
然后使用mask对特征进行蒸馏
Sparse Instance Distillation:对每一个instance根据预测结果与GT的loss定义一个得分,用作instance蒸馏的权重
由于类别的概率预测所蕴含的知识量比较少,所以作者使用对比知识蒸馏,对分类logits之前的特征Hs,Ht进行对比蒸馏,回归蒸馏Lbox还是采取L1损失
CVPR 2023:X3kd: Knowledge distillation across modalities, tasks and stages for multi-camera 3d object detection
包括从LiDAR-based 3D object detection到Camera-based 3D object detection的cross-modal knowledge distillation 和 camera-based 2D instance segmentation的cross-task knowledge distillation
Output-stage Distillation (X-OD):
Feature-stage Distillation (X-FD):
Feature-stage Adversarial Training (X-AT):
Cross-task Knowledge Distillation:学生模型外接一个instance segmentation head,用 camera-based 2D instance segmentation的预训练教师模型的输出作为伪标签来监督
三者联合是instance segmentation的损失
NeurIPS 2023:STXD: Structural and Temporal Cross-Modal Distillation for Multi-View 3D Object Detection
基于多视角图像的三维物体检测(3DOD)是一种相较于昂贵的基于激光雷达的探测器而言更具经济吸引力的替代方案,但由于缺乏精确的空间线索,它也是一项极具挑战性的任务。
近期的研究利用了 “教师 — 学生” 范式进行跨模态蒸馏,即一个强大的基于激光雷达模态的教师模型将有用的知识传递给基于多视角图像模态的学生模型。然而,先前的方法仅仅侧重于最小化跨模态特征之间的全局距离,这可能会导致知识蒸馏结果欠佳。
基于这些认识,我们为多视角三维物体检测提出了一种新颖的结构与时间跨模态知识蒸馏(STXD)框架。
首先,STXD 通过对跨模态特征的互相关性进行正则化来减少学生模型特征组件的冗余,同时最大化它们之间的相似性。
其次,为了有效地传递时间知识,STXD 通过相似性映射对一系列帧中特征的时间关系进行编码。
最后,STXD 还采用了响应蒸馏方法,以进一步提升输出层面的知识蒸馏质量。
我们大量的实验表明,在 nuScenes 测试数据集上,STXD 显著地将基础学生探测器的 nuScenes 检测分数(NDS)和平均精度均值(mAP)提高了 2.8% 至 4.5%。
教师模型:LiDAR点云教师模型。学生模型:多视角图像模态的学生模型
Correlation Regularizing Distillation
Temporal Consistency Distillation
Response-Level Distillation:给每一个instance定义一个quality score,将quality score视为损失权重进行知识蒸馏
总的损失函数
ICRA 2024:Object-centric Cross-modal Feature Distillation for Event-based Object Detection
事件相机因其独特的性能,如低延迟和高动态范围,正日益受到欢迎。在实时物体检测这一任务中,这些优势可能至关重要。然而,由于事件数据的稀疏性以及视觉细节的缺失,RGB 探测器的性能仍然优于基于事件的探测器。
在本文中,我们提出了一种跨模态特征蒸馏方法,该方法能够聚焦于知识蒸馏效果最佳的区域,以缩小这两种模态之间在检测性能上的差距。
我们通过使用一种以物体为中心的槽注意力机制来实现这一点,该机制能够迭代地将特征图解耦为以物体为中心的特征以及用于蒸馏的相应像素特征。
我们在一个合成的以及一个真实的事件数据集(将对齐的灰度图像作为教师模态)上对我们这种新颖的蒸馏方法进行了评估。我们发现,以物体为中心的蒸馏方法能够显著提升基于事件的学生物体探测器的性能,使其与教师(RGB 探测器)之间的性能差距近乎减半。
slot attention module:可以对输入的教师和学生特征得到attention map A和slot feature Q
Coarse-level Feature Alignment:使用attention map对特征进行mask蒸馏
slot feature Q的蒸馏
Q的relation的蒸馏
Auxiliary Task. 在教师QT的后面加入检测头,进行辅助目标检测的监督学习
AAAI 2025:SCKD: Semi-Supervised Cross-Modality Knowledge Distillation for 4D Radar Object Detection
三维物体检测是自动驾驶车辆的基本感知任务之一。利用四维毫米波雷达来完成这一任务颇具吸引力,因为该传感器能够获取与激光雷达类似的三维点云,同时在恶劣天气条件下也能保持稳定的测量效果。然而,由于雷达点云存在高度稀疏性和噪声问题,现有方法的性能仍远低于预期。
在本文中,我们针对基于四维雷达的三维物体检测提出了一种新颖的半监督跨模态知识蒸馏(Semi-supervised Cross-modality Knowledge Distillation,SCKD)方法。它展现了通过半监督蒸馏从激光雷达 - 雷达融合的教师网络中学习特征的能力。
我们首先在教师网络中提出了一个自适应融合模块,以提升其性能。接着,**设计了两个特征蒸馏模块来促进跨模态知识的转移。**最后,提出了一种半监督输出蒸馏方法,以提高蒸馏框架的有效性和灵活性。
在网络结构相同的情况下,通过半监督跨模态知识蒸馏(SCKD)训练的仅使用雷达的学生模型,相较于基线模型,平均精度均值(mAP)提升了 10.38%,并且在 VoD 数据集上的表现优于当前最先进的相关成果。在 ZJUOD 数据集上进行的实验也表明,当有额外的未标注数据可用时,在中等难度级别下,相较于基线模型,平均精度均值(mAP)提升了 5.12%。
特征蒸馏:Lidar to Radar Feature Distillation
特征蒸馏:Fusion to Radar Feature Distillation
SSOD: Semi-Supervised Output Distillation:使用教师模型的过滤后的伪标签对学生进行知识蒸馏
总的损失函数
TCSVT 2022:Deep Cross-Modal Representation Learning and Distillation for Illumination-Invariant Pedestrian Detection
整合多光谱数据已被证明是解决光照不变性行人检测问题的一种有效方案,特别是 RGB 图像和热成像图像能够提供互补信息来应对光照变化。然而,目前大多数多光谱探测器只是通过简单的拼接来融合多模态特征,并没有挖掘它们之间潜在的关系。
在本文中,我们提出了一个跨模态特征学习(Cross-modal Feature Learning,CFL)模块,该模块基于拆分与聚合策略,旨在明确探究成对的 RGB 图像和热成像图像之间共享的以及特定模态的表征。我们将所提出的跨模态特征学习模块插入到基于双分支的行人检测网络的多个层中,以便在不同语义层次上学习跨模态表征。
通过引入基于分割的辅助任务,多模态网络可以通过联合优化多任务损失进行端到端的训练。另一方面,为了减轻现有多光谱行人探测器对热成像图像的依赖,我们提出了一个知识蒸馏框架来训练一个学生探测器,该学生探测器仅接收 RGB 图像作为输入,并在训练良好的多模态教师探测器的引导下对跨模态表征进行蒸馏。
为了促进跨模态知识蒸馏,我们针对特征、检测以及分割层面设计了不同的蒸馏损失函数。 在公开的 KAIST 多光谱行人基准数据集上的实验结果验证了所提出的跨模态表征学习与蒸馏方法能够实现稳健的性能表现。
NeurIPS 2024:VeXKD: The Versatile Integration of Cross-Modal Fusion and Knowledge Distillation for 3D Perception
三维感知领域的最新进展使得网络架构大量涌现,尤其是那些涉及多模态融合算法的架构。虽然这些融合算法提高了精度,但其复杂性往往会阻碍实时性能的实现。
本文介绍了 VeXKD,这是一个将跨模态融合与知识蒸馏有效整合的多功能框架。VeXKD 仅将知识蒸馏应用于鸟瞰图(Bird’s Eye View,BEV)特征图,能够在不增加额外推理时间开销的情况下,将跨模态见解传递给单模态的学生模型。它避开了在各种三维感知任务以及不同学生模态中可能会变化的不稳定组件,从而提升了通用性。
该框架采用了一个通用模态的跨模态融合模块,以弥合多模态教师模型与单模态学生模型之间的模态差异。此外,利用融合过程中产生的副产品,我们的鸟瞰图查询引导掩码生成网络以数据驱动的方式从不同任务及语义层次的不同鸟瞰图特征图中识别出关键的空间位置,显著增强了知识蒸馏的有效性。
在 nuScenes 数据集上进行的大量实验展示出了显著的改进效果,在三维检测任务中,平均精度均值(mAP)和 nuScenes 检测分数(NDS)分别提升了多达 6.9% 和 4.2%;在鸟瞰图分割任务中,平均交并比(mIoU)提升了多达 4.3%,缩小了与多模态模型之间的性能差距。
Modality-General Fusion Module (MGFM):为了更好的融合LiDAR和Multi-view Camera的特征,基于Deformable self-attention 提出了一种融合模块,特点是可学习的Q,用LiDAR进而Camera的特征作为K和V,进行融合得到Fused BEV特征。
BEV query guided mask generation and masked feature distillation
AAAI 2024:DistilVPR: Cross-Modal Knowledge Distillation for Visual Place Recognition
在视觉地点识别(Visual Place Recognition,VPR)中,与单模态数据相比,利用多模态传感器数据已被证明能提升性能。然而,集成额外的传感器会带来成本增加的问题,对于那些需要轻量化运行的系统来说可能并不可行,这进而会影响视觉地点识别的实际部署。
为解决这一问题,我们借助知识蒸馏方法,它能让单模态的学生模型从跨模态的教师模型中学习知识,且在推理过程中无需引入额外的传感器。尽管当前的蒸馏方法已经取得了显著进展,但对特征关系的探索仍是一个尚未充分挖掘的领域。
为应对视觉地点识别中跨模态蒸馏面临的挑战,我们提出了 DistilVPR,这是一种用于视觉地点识别的新颖蒸馏流程。我们提议利用来自多个主体(包括教师神经网络和学生神经网络各自对应的自身主体以及交叉主体)的特征关系。此外,我们整合了多种流形,这些流形具有不同的空间曲率,用于探索特征关系。这种方法增强了特征关系的多样性,涵盖欧几里得、球面以及双曲关系模块,从而提升了整体的表征能力。
实验表明,与其他蒸馏基线相比,我们提出的这一流程实现了最先进的性能。我们还开展了必要的消融研究以展示设计的有效性。
设计了三种关系表征方法,以及两种关系,即学生或者教师的self-relation,或者学生与教师之间的cross-relation,用于知识蒸馏,
Euclidean Relationship
Spherical Relationship
Hyperbolic Relationship
Overall Loss Function
AAAI 2024:SimDistill: Simulated Multi-Modal Distillation for BEV 3D Object Detection
基于多视角相机的三维物体检测因成本低廉而日益流行,但仅依靠相机数据来准确推断三维几何形状仍然颇具挑战性,并且可能导致较差的性能表现。尽管从激光雷达数据中提取精确的三维几何知识有助于应对这一挑战,但不同传感模态之间存在的显著模态差异可能会极大地阻碍激光雷达信息发挥作用。
为解决这一问题,我们通过精心设计模型架构和蒸馏策略,提出了一种模拟多模态蒸馏(Simulated multi-modal Distillation,SimDistill)方法。
具体而言,我们为教师模型和学生模型设计了多模态架构,其中包括一个基于激光雷达 - 相机融合的教师模型以及一个基于模拟融合的学生模型。
得益于这种 “相同” 的架构设计,学生模型能够模仿教师模型,仅以多视角图像作为输入来生成多模态特征,同时引入了一个几何补偿模块来弥合模态差异。
此外,我们还提出了一个全面的多模态蒸馏方案,该方案能在鸟瞰图空间中同时支持模态内、跨模态以及多模态融合蒸馏。将这些要素结合在一起,我们的模拟多模态蒸馏(SimDistill)方法能够为三维物体检测学习到更好的特征表示,同时保持仅使用相机这种经济高效的部署方式。
大量实验验证了模拟多模态蒸馏(SimDistill)方法相较于当前最先进方法的有效性和优越性,其相对于基线探测器实现了平均精度均值(mAP)提高 4.8%、nuScenes 检测分数(NDS)提高 4.1% 的效果。
设计了一个GCM模块来生成估计的LiDAR BEV特征。
Intra-modal Distillation:对于camera BEV特征
Cross-modal Distillation:使用GCM得到学生的估计LiDAR的BEV特征,与教师的LiDAR的BEV特征进行蒸馏
Multi-modal fusion Distillation:对于融合的多模态特征,进行特征蒸馏,以及预测结果的蒸馏
CVPR 2021:There is More than Meets the Eye: Self-Supervised Multi-Object Detection and Tracking with Sound by Distilling Multimodal Knowledge
2024
TCSVT 2024:Selective Transfer Learning of Cross-Modality Distillation for Monocular 3D Object Detection
Depth-Aware Selective Feature Distillation:使用mask矩阵和selective learning weights对pixel-by-pixel的特征进行L2距离蒸馏
Depth-Aware Selective Relation Distillation:使用depth-aware的object instance RoIAlign的特征进行relation的知识蒸馏,L1 loss
Response Distillation:使用L1 loss对教师和学生的detection head的特征进行pixel-by-pixel的蒸馏
CVPR 2024:RadarDistill: Boosting Radar-based Object Detection Performance via Knowledge Distillation from LiDAR Features
RadarDistill successfully transfers desirable characteristics of LiDAR features into radar features using three key components: Cross-Modality Alignment (CMA), Activation-based Feature Distillation (AFD), and Proposal-based Feature Distillation (PFD).
CMA:The objective of CMA is to enhance the density of radar BEV features, thereby facilitating the transfer of knowledge from LiDAR features to radar features more effectively
Activation-based Feature Distillation:根据active region和inactive region在radar和LiDAR的分布,定义一个特征的自适应蒸馏权重W,进行特征蒸馏
Proposal-based Feature Distillation:根据预测heatmap与GT heatmap的区别定义TP,FP,TN,FN,然后计算蒸馏损失权重,对high-level的特征进行channel-wise的normalization后进行蒸馏
总的损失函数:
ICASSP 2023:Cross modality knowledge distillation for robust pedestrian detection in low light and adverse weather conditions
在低光照及恶劣天气条件下,基于 RGB 图像的行人检测是一项极具挑战性的任务,因为图像质量可能会大幅下降。另一方面,纳入诸如热成像和门控成像传感器等其他模态,则能够显著提升在这些条件下的检测性能。然而,这些传感器价格昂贵,并且使用它们可能会带来设计和制造方面的难题。
在本文中,我们提出了一个新框架,该框架利用跨模态知识蒸馏(Cross Modality Knowledge Distillation,CMKD)来提升仅基于 RGB 图像的行人检测在低光照及恶劣天气条件下的性能。
具体而言,我们开发了两种依赖于基于特征的知识蒸馏和对抗训练的跨模态知识蒸馏方法,以便将知识从一个使用多模态进行训练的行人探测器(教师模型)转移到一个仅使用 RGB 图像进行训练的单模态探测器(学生模型)。
使用 “透视雾霭” 数据集进行的实验结果表明,我们提出的这两种方法在检测准确率方面均优于基线探测器,并且在推理过程中不会增加计算复杂度。尤其值得一提的是,所提出的方法可将教师模型与基线模型之间的性能差距最多缩小 55%。
基于特征的跨模态知识蒸馏方法
基于对抗训练的跨模态知识蒸馏方法
TMM 2025:Cross-Modal Hierarchical Knowledge Distillation for Image Aesthetics Assessment
用于图像美学评估的跨模态分层知识蒸馏。
蒸馏:feature-level、relation-level、response-level
AAAI 2024:RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering Assisted Distillation
三维空间占用预测是一项新兴任务,旨在利用多视角图像来估计三维场景的占用状态及语义信息。然而,由于缺乏几何先验知识,基于图像的场景感知在实现准确预测方面面临着重大挑战。
在本文中,我们通过探索该任务中的跨模态知识蒸馏来解决这一问题,也就是说,我们在训练过程中利用一个更强的多模态模型来引导视觉模型。在实际操作中,我们发现直接应用在鸟瞰图(Bird’s-eye-view,BEV)感知中提出并被广泛使用的特征或对数几率(logits)对齐方法,并不能取得令人满意的结果。
为克服这一问题,我们引入了 RadOcc,一种用于三维空间占用预测的渲染辅助蒸馏范式。通过采用可微体积渲染技术,我们在透视图中生成深度图和语义图,并针对教师模型和学生模型的渲染输出提出了两个新颖的一致性准则。具体而言,深度一致性损失用于对齐渲染光线的终止分布,而语义一致性损失则模拟由视觉基础模型(Vision Language Models,VLMs)引导的段内相似性。
在 nuScenes 数据集上的实验结果证明了我们所提方法在改进各类三维空间占用预测方法方面的有效性,例如,我们提出的方法使基准模型在平均交并比(mIoU)指标上提高了 2.2%,并且在 Occ3D 基准测试中达到了 50% 的成绩。
Rendered depth consistency:KL散度
Rendered semantic consistency:cosine affinity loss(L2 loss)和KL散度
ECCV 2024: Distilling Knowledge from Large-Scale Image Models for Object Detection 面向DETR的知识蒸馏
近年来,大规模图像模型取得了巨大进展,推动了许多视觉任务(例如物体检测)的发展边界。考虑到在许多场景中,由于高昂的计算开销,部署大型模型并不实际,本文提出了一种新的知识蒸馏方法,即从大规模图像模型中提取知识用于物体检测(简称为 DLIM-Det)。
为此,我们做出了以下两项努力:
(1)为了弥合教师模型和学生模型之间的差距,我们提出了一种冻结教师模型的方法。具体而言,为了通过在特定任务上对大型模型进行微调来创建教师模型,我们冻结预训练的主干网络,仅优化任务头部。这样可以保留大型模型的泛化能力,并使教师模型具备独特的特性。特别是当配备了检测 Transformer(DETR)时,被冻结的教师模型会呈现出稀疏的查询位置,从而有助于蒸馏过程的进行。
(2)考虑到大规模探测器主要基于检测 Transformer(DETR),我们提出了一种专门针对 DETR 定制的查询蒸馏(Query Distillation,QD)方法。查询蒸馏(QD)通过利用教师模型查询的空间位置和成对关系作为知识,来引导学生模型中物体查询的学习,从而进行知识蒸馏。
我们在参数规模从 2 亿到 10 亿不等的各种大规模图像模型上进行了大量实验。当以使用 Swin-Large 的 DINO 探测器作为教师模型时,我们的 DLIM-Det 方法能使采用 Swin-Tiny 的学生模型的平均精度均值(mAP)提高 3.1。此外,即便教师模型的参数比学生模型多 30 倍,DLIM-Det 仍然能够实现 + 2.9 的蒸馏增益。
Query Position Distill:把query解码成bounding box的预测,使用匈牙利匹配之后的对应关系,对教师与学生的bounding box实例进行一对一的L1 loss和GIoU loss的蒸馏
Query Relation Distill:使用self-attention对两个不同样本的query进行计算得到注意力矩阵Ai,j,然后使用L1损失对教师和学生模型的Aij进行蒸馏监督
Overall Loss
AAAI 2024:Sunshine to rainstorm: Cross-weather knowledge distillation for robust 3d object detection 跨场景的知识蒸馏
两种蒸馏方式:Adaptively Weighted Instance Distillation (AWID) and Precise Response Distillation (PRD).
AWID:使用density similarity和shape similarity作为instance特征蒸馏的mask
PRD:response distillation as a classical distillation approach
arXiv 2024:MonoTAKD: Teaching Assistant Knowledge Distillation for Monocular 3D Object Detection
使用LiDAR 3D输入作为教师,Camera-based 2D + GT Depth Bins作为助教,Camera-based 2D作为学生。
学生学习两个BEV特征用于接收蒸馏学习,第一个学习助教的特征,第二个学习教师与助教的残差特征。
总的损失
TIV 2024:BEV-LGKD: A Unified LiDAR-Guided Knowledge Distillation Framework for Multi-View BEV 3D Object Detection
教师和学生模型均为Multi-view Images的输入,LiDAR的提取前景mask作为BEV特征蒸馏的引导矩阵。整个蒸馏过程分为四个部分:Feature Extractor Distillation;LiDAR-Guided BEV Feature Distillation;Depth Distillation;logits Distillation
TMM 2024:Context Matters: Distilling Knowledge Graph for Enhanced Object Detection
分别把学生和教师模型的预测构造为geometry graph和semantic graph,然后对这两种graph知识进行蒸馏
如何构建图表征
TPAMI 2024:Uni-to-Multi Modal Knowledge Distillation for Bidirectional LiDAR-Camera Semantic Segmentation
ACM MM 2024:Joint Homophily and Heterophily Relational Knowledge Distillation for Efficient and Compact 3D Object Detection
Collaborative Global Distillation:使用2个样本之间的欧氏距离作为distance-wise RKD loss,使用三个样本之间的cosine similarty作为angle-wise RKD loss
Separate Local Distillation:构建两种图表征H和R,然后得到一种联合的图表征F,使用图卷积对F处理后,进行知识蒸馏
IEEE RAL 2023:CEKD: Cross-Modal Edge-Privileged Knowledge Distillation for Semantic Scene Understanding Using Only Thermal Images
知识分为四种:特征的相似性损失Lsim,边缘蒸馏损失Ledge,KL散度蒸馏损失Lkdce,logits蒸馏损失(伪标签任务交叉熵损失)Lseg
ICASSP 2023:Multimodal Knowledge Distillation for Arbitrary-Oriented Object Detection in Aerial Images
近来,许多任意方向物体检测(Arbitrary-Oriented Object Detection,AOOD)方法被提出,并应用于遥感及其他领域。对于航空平台而言,迫切需要卷积神经网络(Convolutional Neural Network,CNN)模型具备轻量化结构以及能适应多模态的特性。
由于模型规模有限,现有轻量化的任意方向物体检测方法的性能较低,尤其在多模态任务中表现欠佳。在本文中,针对航空图像中的任意方向物体检测,提出了一种多模态知识蒸馏(Multimodal Knowledge Distillation,MKD)方法。
在多模态知识蒸馏方法中,设计了一种多模态动态标签分配策略,用于动态地选择最优正样本,以适应不同的模态及环境。同时,还设计了不同的多模态定位和特征蒸馏模块,旨在使多模态知识能够相互补充,并被轻量化模型有效地学习。
在公开数据集上进行的实验证明了多模态知识蒸馏(MKD)方法的有效性和先进性。
两个模态各自独立的教师模型,一个IR模态的学生模型。
Localization logits蒸馏:1-GIoU + bbox的坐标MSE + bbox面积之差的平方
检测头的cls和reg的特征蒸馏:MSE loss用于蒸馏
ECAI 2023:MonoSKD: General Distillation Framework for Monocular 3D Object Detection via Spearman Correlation Coefficient
单目三维物体检测本质上是一个不适定问题,因为从单张图像中预测准确的三维定位颇具挑战性。现有的单目三维检测知识蒸馏方法通常将激光雷达数据投影到图像平面上,并据此训练教师网络。将基于激光雷达的模型知识转移到基于 RGB 图像的模型要更为复杂,所以需要一种通用的蒸馏策略。
为缓解跨模态问题,我们提出了 MonoSKD,这是一种基于斯皮尔曼相关系数(Spearman correlation coefficient)的用于单目三维检测的新型知识蒸馏框架,旨在学习跨模态特征之间的相对相关性。考虑到这些特征之间存在较大差距,对特征进行严格对齐可能会误导训练,因此我们提出了一种更宽松的斯皮尔曼损失函数。
此外,通过选择合适的蒸馏位置并去除冗余模块,我们的方案相较于现有方法能够节省更多的 GPU 资源,并且训练速度更快。我们开展了大量实验,以验证我们的框架在极具挑战性的 KITTI 三维物体检测基准数据集上的有效性。我们的方法在提交时达到了最先进的性能,且不会产生额外的推理计算成本。
Spearman Correlation Coefficient Distillation
CVPR 2023:Decomposed Cross-modal Distillation for RGB-based Temporal Action Detection
时序动作检测旨在预测视频中动作实例的时间区间和类别。尽管现有双流模型取得了不错的性能表现,但由于其依赖计算成本高昂的光流,导致推理速度较慢。
在本文中,我们引入了一种分解式跨模态蒸馏框架,通过转移运动模态的知识来构建一个强大的基于 RGB 图像的探测器。具体而言,我们不采用直接蒸馏的方式,而是提议分别学习 RGB 图像和运动表征,然后将它们组合起来以执行动作定位。这种双分支设计和非对称的训练目标能够在完整保留 RGB 图像信息的同时,实现有效的运动知识转移。
此外,我们引入了局部注意力融合机制,以便更好地利用多模态的互补性。该机制旨在保留对动作定位十分重要的特征的局部可判别性。
在多个基准数据集上进行的大量实验验证了所提方法在增强基于 RGB 图像的动作探测器方面的有效性。值得注意的是,我们的框架与主干网络和检测头无关,能在不同的模型组合中带来稳定的性能提升。
Local Attention Fusion
CVPR 2022:X-Trans2Cap: Cross-Modal Knowledge Transfer using Transformer for 3D Dense Captioning
TMM 2020 CKD: Cross-Task Knowledge Distillation for Text-to-Image Synthesis
使用image-to-label的图像分类模型和image-to-text的图像注释模型对text-to-image的模型进行三个阶段的跨任务知识蒸馏。
WACV 2024:Alleviating Foreground Sparsity for Semi-Supervised Monocular 3D Object Detection
提出的 “用于单目三维物体检测的占用引导蒸馏”(Occupancy-Guided Distillation for Monocular 3D Object Detection,简称 ODM3D)框架遵循带有跨模态知识蒸馏的 “教师 — 学生” 范式,如图 2 所示。**教师模型是一个经过预训练的基于激光雷达的三维物体探测器,**它会在其处理流程中生成中间的鸟瞰图(BEV)特征,并在鸟瞰图空间中执行后续的三维物体检测任务。
学生模型是一个单目探测器,它将单张 RGB 图像作为输入,并且同样涉及中间的鸟瞰图特征。它经过训练,以模仿教师模型在其鸟瞰图编码器中的中间鸟瞰图特征以及在其检测头处的密集预测图。在此过程中,学生模型从教师模型那里获取由激光雷达所引出的知识。
在整个跨模态训练过程中,通过投影每个场景的点云所获得的鸟瞰图占用掩码(详见第 3.2 节)被用于在特征和预测领域引导蒸馏(详见第 3.3 节)。由于训练场景中物体分布较为稀疏,我们设计并应用了跨模态数据增强方法,即将真实标注的物体粘贴到每个训练场景中,以此来丰富监督信号(详见第 3.4 节)。在推理阶段,基于激光雷达的教师模型会被舍弃,仅部署单目学生模型来进行相关操作。
IJCAI 2023:Acoustic NLOS Imaging with Cross Modal Knowledge Distillation
教师模型:RGB输入,学生模型Audio输入,输出深度图,跨膜态知识蒸馏
Lkd的特征KL散度蒸馏 + 预测的GAN判别性蒸馏
https://github.com/shineh96/Acoustic-NLOS-CMKD
ICRA 2024:Robust 3D Object Detection from LiDAR-Radar Point Clouds via Cross-Modal Feature Augmentation
本文提出了一种新颖的框架,旨在通过跨模态幻觉(cross-modal hallucination)技术实现基于点云的鲁棒性三维物体检测。我们所提出的方法对于激光雷达(LiDAR)和四维雷达之间的幻觉生成方向并无偏向性。
我们在空间和特征层面引入了多种对齐方式,以实现主干网络的同步优化以及幻觉生成。具体而言,提出空间对齐是为了处理几何差异,从而在激光雷达和雷达之间实现更好的实例匹配。特征对齐步骤进一步弥合了不同传感模态之间内在的属性差距,并稳定了训练过程。
经过训练的物体检测模型即便在推理阶段仅使用单模态数据作为输入,也能够更好地应对棘手的检测情况。在代尔夫特视角(View-of-Delft,VoD)数据集上开展的大量实验表明,我们所提出的方法在雷达和激光雷达物体检测方面均优于当前最先进的(state-of-the-art,SOTA)方法,同时在运行时还能保持颇具竞争力的效率。
AAAI 2023:StereoDistill: Pick the Cream from LiDAR for Distilling Stereo-Based 3D Object Detection
proposed cross-modal distillation StereoDistill, which consists of the X-component Guided Distillation (XGD) and Cross-anchor Logit Distillation (CLD) at the response level.
X-component Guided Distillation
把3D bounding box解耦成三个变量,(x,y,z)和(w,h,l)和角度θ
计算每个变量在student预测,teacher预测,还有GT 这三者之间的cosine,如果cosine数值大于0,作者认为教师预测对学生的引导有帮助,如果cosine数值小于0,则认为教师预测是有害的,选择相信学生。
由此上述计算,得到soft label Bt*,然后对学生的Bs使用IoU损失进行蒸馏
Cross-anchor Logit Distillation
TMI 2022:Unpaired Cross-Modality Educed Distillation (CMEDL) for Medical Image Segmentation
JBHI 2022:Cross-Modal Prostate Cancer Segmentation via Self-Attention Distillation
AMGB:注意力图生成模块进行知识蒸馏
TMI 2024:A Transformer-Based Knowledge Distillation Network for Cortical Cataract Grading
TBE 2022:Cross-Modal Distillation to Improve MRI-Based Brain Tumor Segmentation With Missing MRI Sequences
NeurIPS 2022:Unifying Voxel-based Representation with Transformer for 3D Object Detection
在本文中,我们提出了一个简单却有效的框架,将基于体素的表示与变换器(Transformer)统一起来,我们将其命名为 UVTR。尤其值得一提的是,来自图像和点云的特征会在明确的基于体素的空间中进行表示并相互作用。
对于图像而言,我们根据预测的深度得分以及几何约束,通过从图像平面采样特征来构建体素空间,如图 1d 所示。对于点云来说,其精确的位置自然使得我们能够将特征与体素相关联。
然后,引入体素编码器来进行空间交互,从而建立相邻特征之间的关系。通过这种方式,跨模态交互便能自然地与每个体素空间中的特征一起进行。
对于对象级交互,我们采用可变形变换器(Deformable Transformer)[11] 作为解码器,它会针对统一体素空间中具有位置(x,y,z)的每个对象查询来采样特定的特征,如图 1d 所示。同时,如前文所分析的那样,三维查询位置的引入有效地缓解了鸟瞰图(BEV)空间中因高度压缩而带来的语义模糊性问题。
TCSVT 2024:Low-Resolution Object Recognition With Cross-Resolution Relational Contrastive Distillation