《Real-IAD: 用于基准测试多功能工业异常检测的真实世界多视角数据集》学习笔记
paper:2403.12580
GitHub:Real-IAD: A Real-World Multi-View Dataset for Benchmarking Versatile Industrial Anomaly Detection
目录
摘要
1、介绍
2、相关工作
2.1 异常检测数据集
2.2 标准异常检测
2.3 异常检测中的其他设置
3、Real-IAD 数据集描述
3.1. 数据收集与构建方式
3.1.1 材料准备
3.1.2 原型设备建设
3.1.3 数据收集、标注与清理
3.2. 与流行2D数据集的对比
3.2.1 与主流数据集的对比
3.2.2 数据统计
3.3. Real-IAD 可视化
4、基准测试
4.1 评估设置
4.2 评估指标
5、与IAD基准的比较
5.1 无监督异常检测(UIAD)上的结果
5.2 IAD基准与FUIAD的结合
6、与完全无监督IAD的比较
7、结论
摘要
工业异常检测(IAD)已引起了广泛关注并经历了快速发展。然而,近期IAD方法的发展由于数据集的局限性遇到了一些困难。一方面,许多最先进的方法在主流数据集(如MVTec)上的表现已经趋于饱和(AUROC超过99%),不同方法之间的差异难以区分,这导致了公共数据集与实际应用场景之间的显著差距。另一方面,各种新型实际异常检测设置的研究受限于数据集的规模,评估结果可能存在过拟合的风险。因此,我们提出了一个大规模、真实世界、多视角的工业异常检测数据集,名为Real-IAD,包含了150K高分辨率图像,涵盖30种不同的物体,规模比现有数据集大一个数量级。它拥有更大的缺陷区域和比例分布,使得它比之前的数据集更加具有挑战性。为了使数据集更贴近实际应用场景,我们采用了多视角拍摄方法,并提出了样本级评估指标。此外,除了通用的无监督异常检测设置外,我们还基于工业生产中产率通常大于60%的观察,提出了一个新的完全无监督工业异常检测(FUIAD)设置,这一设置具有更高的实际应用价值。最后,我们报告了在Real-IAD数据集上的流行IAD方法的结果,提供了一个具有高度挑战性的基准,推动了IAD领域的发展。
1、介绍
高质量的数据集在计算机视觉技术的发展中起着至关重要的作用,它们不仅指导技术进步的方向,还为技术研究与实际应用之间架起了桥梁。例如,ImageNet [13] 在深度学习模型结构和学习方法的发展中做出了不可磨灭的贡献。MVTec AD[2] 将制造业中的缺陷检测抽象为一个研究课题,从而使视觉学习算法更接近工业生产应用场景。然而,当前的缺陷检测(AD)数据集的规模仍然较小,仍然需要进一步发展。
工业生产是人类社会发展的基石,产品质量检测在其中发挥着关键作用 [7]。零件生产过程中的缺陷会影响产品质量,并降低产品的使用寿命。在药品、食品、电池等产品的生产中,产品缺陷可能会对人类安全构成威胁。鉴于缺陷检测的重要性,制造公司已经在这一领域投入了大量资源 [2–4],学术界也在近年来逐渐关注这一问题 [1, 12, 15, 25, 26, 34]。一些自动化技术已经在实际应用中发挥作用。早期的视觉学习技术在工业缺陷检测中的应用主要涉及有监督学习的检测 [6, 14, 28] 和分割 [8, 16, 32] 任务。尽管这些方法具有实际价值,但它们仍然面临着技术挑战,例如需要精确的缺陷位置标注。此外,对于稀缺或未包含在训练集中的缺陷,检测性能会显著下降。
随着MVTec AD [2] 和 VisA [40] 等数据集的出现,大量无监督异常检测方法应运而生 [12, 23, 26, 29, 34, 38]。这些方法只需要确保训练集中的图像是没有异常的,所得到的模型具有预测缺陷位置和像素区域的能力,大大减少了人工标注成本,并赋予算法识别未知缺陷的能力。像MVTec AD [2] 和 VisA [40] 这样的数据集的出现,激发了学术界对工业异常检测研究的兴趣,并催生了许多创新方法。然而,随着技术的进步,这些数据集逐渐暴露出其局限性。例如,MVTec AD中的缺陷范围较小,实际应用场景也较为简单。最近的方法在I-AUROC(图像级)和PAUROC(像素级)指标上已超过99%,这使得新方法之间的优劣难以区分。数据集的规模也受到限制,MVTec AD中的一些类别只有约60张甚至更少的缺陷图像,测试图像数量较少引起的随机误差不可忽视。一些新的IAD研究使用了训练集中某些缺陷图像,导致测试集更小,进一步加剧了这个问题。在物体多样性方面,MVTec AD包含了15种物体,VisA包含了12种物体。物体类型的数量有限,影响了对统一模型能力的评估,导致了过于乐观的模型指标。此外,当前数据集的设置与理想的应用场景之间存在差距。尽管IAD是无监督学习,但训练集仍然需要人工标注。这个过程可能引入噪声样本,例如Soft Patch [21] 提出的BTAD训练集中的噪声样本。此外,主流的2D IAD数据集由单一视角的图像组成,但在实际应用中,部分结构复杂,单一视角无法覆盖所有缺陷。尽管一些数据集(如MVTec AD-3D [4])试图从3D角度解决多视角问题,但3D传感器的高成本限制了其在实际应用中的应用。
为了使数据集更贴近实际应用场景并解决现有数据集的局限性,我们提出了一个新的真实世界工业异常检测数据集——Real-IAD。该数据集在物体类别数和图像数量方面远远超过现有数据集。据我们所知,这个数据集是第一个考虑到2D IAD任务中的多视角问题的数据集。在实际应用的理想场景中,图像采集设备部署在生产线上,算法可以在没有人工干预的情况下自动训练,并具备判断产品是否存在缺陷的能力。基于大多数生产线产率大于60%的特点,我们将0~40%的质量检测异常图像添加到无异常的训练集中,首次提出了完全无监督的异常检测问题。通过这个新数据集,我们希望推动工业异常检测领域的技术发展,鼓励出现更多高效且实用的检测方法,并为工业生产提供更强大的技术支持。
在这个新的真实世界数据集中,我们收集了30种工业产品,涵盖塑料、木材、陶瓷和混合材料等多种材料,考虑到了工业生产中的多样性。我们还特意提高了数据集的分辨率,以捕捉更细微的缺陷特征,为高精度缺陷检测提供强有力的支持。此外,我们从多个角度收集了每种产品的图像,以解决单一视角无法覆盖所有缺陷的问题。为了验证新数据集的有效性并推动技术发展,我们对数据集进行了系列实验。具体来说,我们对现有的无监督异常检测算法进行了基准测试,评估它们在新数据集上的表现。实验结果表明,尽管这些算法在原始数据集上取得了良好的表现,但在新数据集上的表现仍有提升空间,表明该数据集具有一定的挑战性,这有助于促进算法的改进和创新。
总结: 我们的主要贡献如下:
- 提出了一个新的Real-IAD数据集,该数据集比现有主流数据集大十倍以上,包含30类物体,每类物体有5个拍摄角度,总计15万张高分辨率图像。此外,Real-IAD呈现了更具挑战性的缺陷,缺陷区域和比例范围更大,更好地区分了不同方法的表现,满足了IAD研究的各种设置需求。
- 在Real-IAD数据集上构建了一个完全无监督的IAD设置,这一设置更加贴近实际应用场景,只使用生产线大多数产率大于60%的自然约束,而不引入额外的人工标注。
- 在多个设置下报告了流行IAD方法在Real-IAD数据集上的表现,提供了一个高度具有挑战性的基准,推动了异常检测领域的发展。
2、相关工作
2.1 异常检测数据集
早期的异常检测工作通常在KolektorSDD [31]数据集上进行,该数据集仅包含一个类别,极大限制了算法的评估与发展。随后,提出了MTD [19]、MPDD [20]和BTAD [27]等数据集,但这些数据集在类别数量和总图像数量上仍然较小。自MVTec AD数据集[2]问世以来,传统的感知IAD任务已逐渐步入正轨,吸引了大量研究者和实践者的关注。该数据集包含了15种工业产品,分为两类,总计5,354张图像,极大推动了算法研究。随后,VisA [40]数据集覆盖了12种物体,分为三类,总计10,821张图像,将IAD数据集的图像数量首次提升到10K级别,并且拥有更多的类别。最近,Zhou等人[39]提出了一个合成PAD数据集,以推动无姿态异常检测的研究,但合成数据与真实样本之间存在天然差距,导致指标的不一致。此外,一些数据集已将3D信息扩展到更好地检测缺陷,例如MVTec 3D AD [4]、Eyecandies [5]和Real3D [24]。然而,目前的视觉IAD数据集仍然在规模和类别上较小,通常应用于有限的工业场景,并且在分类领域没有与ImageNet-1K [13]相当的IAD数据集。为了解决这个问题,我们提出了一个新型的大规模(约150K图像)、更多类别(30类)和多视角(5个拍摄角度)的Real-IAD数据集,该数据集包含高清图像、精细标注和更具挑战性的缺陷,致力于为IAD方法的发展提供更具挑战性的基准,并促进不同方法的公平比较(参见第4节详细说明)。
2.2 标准异常检测
标准IAD任务旨在识别目标类别的图像是否异常,并在预测为异常时,定位异常区域。由于缺乏异常数据,这一任务更加具有挑战性,通常将其作为无监督学习问题,训练阶段仅提供正常数据。近年来,众多研究致力于开发无监督异常检测器,形成了几种主流方法,包括基于数据增强的方法[22, 36]、基于重建的方法[17, 23]、和基于嵌入的方法[12, 26, 29, 30]。特别地,基于嵌入的方法可以进一步细分为四种类别,即记忆库[29]、归一化流[30]、知识蒸馏[12, 37]和分类方法[26]。这些方法已取得了优异的结果。
2.3 异常检测中的其他设置
随着技术的进步,提出了越来越多具有挑战性的设置。零-shot/少-shot IAD [9, 10, 18]集中在使用少量正常样本进行IAD,减少对数据的需求。SoftPatch [21]在标准设置中引入了噪声数据(少于10%),以模拟真实场景中的情况,Zaheer等人则提出了无监督视频检测[35]。相对而言,半监督IAD [33]在训练期间引入异常数据,以便更好地进行IAD。为了避免为不同类别重新训练,统一IAD [34]通过一个统一框架实现了多个类别的IAD。在本文中,我们提出了一种新的设置,称为完全无监督工业异常检测(FUIAD),基于工业生产中通常超过60%的合格率,这具有更高的实际应用价值。
3、Real-IAD 数据集描述
3.1. 数据收集与构建方式
本节介绍了Real-IAD数据集的构建流程,如图1所示,该过程包含三个部分:
3.1.1 材料准备
我们收集了30种不同材料的物体,包括金属、塑料、木材、陶瓷和混合材料。如图1-(a)的上部分所示,我们手动创造了多种缺陷类型,包括缺失部件、污渍、变形、坑洞、损坏、孔洞、裂缝和刮痕等,所有这些缺陷类型都显示在图1-(a)的下部分。随后,这些正常物体和异常物体被送至原型机进行图像收集。
3.1.2 原型设备建设
图1-(b)展示了数据采集设备的建设过程。共有五台相机从不同角度拍摄物体,其中一台相机拍摄正上方,另外四台相机从大约45度对称角度拍摄。此外,为了更好地拍摄物体并清晰捕捉到微小缺陷,在物体上方安装了环形光源。在实际应用中,自动化设备用于翻转零部件进行底部质量检查。对于具有更多结构性障碍的部件,相机会旋转以从更多角度拍摄。考虑到部件翻转和附加拍摄角度可能会影响实际应用,但对算法研究没有影响,我们将多视角的质量检测问题抽象化为五个拍摄角度。所用相机为HIKROBOT MV-CE200-10GC,分辨率为3,648×5,472。
3.1.3 数据收集、标注与清理
如图1-(c)所示,为了确保数据集收集的准确性,我们首先手动确认所有正常图像和异常图像,并使用LabelMe进行像素级标注,标注异常数据。然后,数据被分成三组,每组使用基于HRNet-32w骨干网络的级联RCNN进行监督训练,以便进行自信学习。我们检查模型预测结果与人工标注结果之间的不一致,出现差异的图像将进行人工检查和重新标注,直到模型预测的AP结果基本不变,且需要修改的标注图像数量少于某个阈值。最后,我们认为数据已清理干净,并构建不同的数据集设置。
3.2. 与流行2D数据集的对比
本节提供了我们提出的Real-IAD数据集的详细统计分析,并将其与主流数据集(如MVTec AD [2]和VisA [40])进行了对比。
3.2.1 与主流数据集的对比
如表1所示,相比于主流数据集,我们的方法在类别数量上至少增加了2倍,在数据量上增加了一个数量级,即从10K增加到150K。此外,Real-IAD提供了高达2,000∼5,000分辨率的图像,支持更细粒度的IAD算法研究,并涉及从原始图像裁剪的过程。每个物体都提供了五张从不同角度拍摄的图像,并附有分割标注,以支持多视角设置(参见图3)。
3.2.2 数据统计
图2展示了Real-IAD数据集的统计信息。与对比数据集相比,Real-IAD在正常数据和异常数据的数量上有了一个数量级的提高(图2-a)。同时,缺陷区域的比例(图2-b)和缺陷比率的范围(图2-c)更大,表明数据集的难度更高,这也通过表2中的实验得到了证明。图2底部展示了不同类别中的正常数据和异常数据的数量(图2-d),以及不同类型缺陷的比例(图2-e)。总体而言,正常数据与异常数据的比例差异不大,例如VisA的数据集达到了8:1,并且每种类别下有多种缺陷类型。
优势分析
我们的Real-IAD数据集在以下几个方面具有优势:
- 多样性:与现有数据集相比,Real-IAD数据集涵盖了更多的类别并提供了更丰富的场景,有助于训练更强大的异常检测模型,并进行公平的评估。
- 大规模:Real-IAD首次提供了超过150K图像的数据集,相较于流行的IAD数据集增加了一个数量级,并且提供了带有像素级标注的多视角图像。
- 挑战性:与现有数据集相比,Real-IAD数据集的难度更高,这可以推动现有异常检测算法的发展和进步。
3.3. Real-IAD 可视化
图1底部展示了来自Real-IAD的30种样本数据类型,显示数据集包括来自多种材料类型的数据,如金属、塑料、木材、陶瓷和混合材料。此外,缺陷类型包括坑洞、变形、磨损、刮痕、损坏、缺失部件、外来物体和污染。缺陷区域占比从0.1%到0.5%不等,缺陷比率从0.1到10.0。更丰富的数据表明,Real-IAD具有较高的挑战性,预计将促进IAD领域的进一步发展。
4、基准测试
4.1 评估设置
我们建立了两种评估协议,包括无监督异常检测(UIAD)和完全无监督异常检测(FUIAD),适用于Real-IAD数据集的所有30个类别。
- 无监督异常检测(UIAD):算法仅从正常样本中学习模式和结构。因此,大多数现有的异常检测数据集通常会将数据集划分为训练集和测试集,训练集仅包含正常样本,而测试集则包含正常样本和异常样本。与此不同,我们首先在UIAD设置下评估Real-IAD数据集,沿用了之前的研究方法。
- 完全无监督异常检测(FUIAD):该设置在实际的异常检测中是不可避免的,但很少被讨论。由于现有数据集中异常样本的数量有限(如MVTecAD [2]和VisA [40]),构建FUIAD设置是困难的。本文首次从数据集构建的角度考虑了FUIAD(即在UIAD基础上加入噪声)。在Real-IAD数据集中,大量多样的异常样本为我们提供了构建FUIAD设置的灵活性。
为了构建FUIAD设置,我们首先需要确定测试集,其中包括正常样本和异常样本。在我们的实验中,正常样本和异常样本的数量均设为100个样本(500张图像)。剩余的正常样本和异常样本将作为候选集,用于构建带噪声的训练集。我们保持训练集中样本的总数不变,但正常和异常样本的数量根据给定的噪声比率自适应调整。为此,我们首先根据候选集的规模和噪声比率范围(例如[0.1, 0.4])推断训练样本的数量。然后,我们从候选集中随机抽取正常和异常样本,以构建具有特定噪声比率的训练集。通过这种方式,我们获得了几个新的完全无监督基准,其中不同噪声比率表示为α ∈ [0, 1]。
4.2 评估指标
-
AUROC:AUROC(接收操作特征曲线下面积)是图像级和像素级异常检测中最广泛使用的评估指标。
-
PRO和AUPRO:我们还计算了分割结果与地面真实值之间的标准化每区域重叠度(PRO),并采用AUPRO(PRO曲线下面积)作为像素级评估指标 [2]。
大多数IAD方法 [12, 22, 26, 29, 30, 36, 38] 由于现有数据集的局限性,仅在图像级和像素级进行异常检测评估。提出的Real-IAD数据集,作为我们所知的第一个多视角异常检测数据集,每个样本都由多个不同视角的图像组成。因此,除了在图像和像素级评估异常检测性能外,我们还将多个视角的结果进行整合,以评估样本级的性能。这更符合工业生产线中指标评估的实际情况。
5、与IAD基准的比较
5.1 无监督异常检测(UIAD)上的结果
我们全面比较了Real-IAD与一些流行的IAD基准数据集(例如MVTec AD [2]和VisA [40])的性能。MVTec AD [2]是工业异常检测领域广泛使用的数据集,包含10个物体和5种纹理的高分辨率图像,这些图像在不同的光照条件下拍摄,且包含不同类型的异常。该数据集提供了异常位置和类型的标注,从而支持定量评估检测性能。VisA [40]是MVTec AD的2倍大,包含图像和像素级的标注,涵盖12种物体,跨越3个领域,面临复杂物体结构、多实例和物体姿势/位置变化等挑战。
提出的Real-IAD是一个大规模(约15万张)且类别更多(30个物体)的多视角(5个拍摄角度)异常检测数据集,每个异常图像都标注了像素级的掩码和特定的缺陷类型。考虑到MVTec和VisA是单视角数据集,我们还从Real-IAD中选择了一个视角(即俯视图),以形成一个单视角Real-IAD数据集,作为多视角Real-IAD的一个子集。
在UIAD设置下,我们主要选择了基于嵌入的IAD方法,如PatchCore [29]、PaDim [11]和CFlow [30],基于数据增强的方法,如SimpleNet [26]和DeSTSeg [38],以及基于重建的RD [12]和UniAD [34],进行性能比较。PatchCore [29]首先提取邻域感知的块级特征,然后将其存储在内存库中。在测试时,如果至少一个块被认为是异常的,图像就会被归类为异常,且每个块的特征得分用于生成像素级异常分割。PaDim [11]提取预训练特征来建模正常分布,然后使用距离度量来评估异常。CFlow [30]提出使用条件归一化流框架来估计精确的数据似然,这是其他生成模型在IAD中无法实现的。SimpleNet [26]和DeSTSeg [38]将无监督IAD转化为通过生成异常图像/特征和真实的正常图像/特征进行监督训练的方法。基于特征重建的RD [12]和UniAD [34]通过反向蒸馏和邻域掩蔽注意力防止模型学习捷径。
我们在实验中使用开源的Anomalib重现了PatchCore [29]、PaDim [11]、CFlow [30]和RD [12],并使用官方代码重现了SimpleNet [26]、DeSTSeg [38]和UniAD [34]。在实验中,我们将所有图像调整为256×256大小,只对PatchCore [29]和PaDim [11]从调整后的256×256图像中心裁剪224×224大小。其他超参数,如批量大小和学习率,保持与官方实现一致。
所有方法在MVTec、VisA和我们的单视角/多视角Real-IAD上的结果如表2所示:
-
我们可以观察到,从MVTec(I-AUROC为97.9%)到单视角和多视角Real-IAD(I-AUROC为85%)的性能显著下降。这表明,提出的Real-IAD比现有的数据集更加具有挑战性。特别是在使用统一模型时,性能下降更为显著,这是合理的,因为Real-IAD的数据分布更复杂(即更多的视角和类别)。
-
很难在现有数据集上评估不同的方法,因为大多数方法的结果非常相似。特别是在MVTec上,大多数方法的I-AUROC都达到了98%-99%。相较之下,在Real-IAD数据集上,大多数方法的I-AUROC仅为90%左右,这更有助于评估异常检测算法的有效性。
-
Real-IAD的像素级P-PRO可与现有的VisA数据集相媲美,但明显低于MVTec AD。这表明,提出的Real-IAD数据集在像素级异常定位方面也存在挑战。
5.2 IAD基准与FUIAD的结合
传统的无监督IAD方法确实假设训练数据集仅包含正常样本。然而,在实际应用中,确保所有训练样本都是正常的并不容易。考虑到生产线的合格产品率通常高于60%,意味着最多有40%的产品是异常的。因此,现有的无监督方法可能不适用于实际应用,因为它们要求在训练前进行人工标注,这是非常繁琐的。
因此,更实用的解决方案是执行完全无监督的异常检测,允许在训练过程中包含一定比例的异常样本。这种范式更能适应实际场景,并减少对人工标注的依赖。通过构建一个完全无监督的IAD设置,可以更好地模拟现实场景中的异常情况,从而提高IAD算法的鲁棒性和实用性。
流行的异常检测数据集,如MVTecAD [2]和VisA [40],主要是为无监督设置设计的。为了评估完全无监督算法的能力,研究人员必须随机从测试集中抽取一部分异常样本,并将其作为噪声样本添加到训练集中,从而创建一个完全无监督的IAD实验。这样做会导致有效测试样本数量的大幅减少,这可能不足以有效评估异常检测算法的性能。
为了定量分析,我们假设每个类别的测试样本数量(例如25、50、75、100和150),并根据给定的噪声比率(例如0.1、0.2和0.4)计算有效测试类别的数量以及训练图像或样本的数量。相应的统计结果已在表3中报告。
我们可以看到,增加噪声比率或将异常噪声样本注入正常训练集(MVTec和VisA)会导致有效测试类别和正常训练样本数量的减少,这使得在一些挑战性设置(高噪声比率)下无法评估FUIAD算法的性能。相比之下,提出的Real-IAD确保了当噪声比率从0.1到0.4变化时,测试类别数量和训练集中正常样本的数量保持一致,且异常测试样本数量从50到150不等。这表明Real-IAD为FUIAD算法提供了一个更可靠和全面的评估。
6、与完全无监督IAD的比较
对于完全无监督的异常检测,我们设置了噪声比率 。此外,为了公平比较FUIAD和UIAD设置在相同测试集上的表现,我们还将噪声比率设置为0,这样FUIAD就转变为UIAD。FUIAD(
)的结果应为所有FUIAD设置(
)的上界。
考虑到在现有数据集上建立一个有效的完全无监督设置并不容易,我们仅在我们的Real-IAD数据集上评估完全无监督的异常检测方法。与无监督异常检测的评估类似,我们选择了相同的方法,PatchCore [29]、PaDim [11]、CFlow [30]、SimpleNet [26]、DeSTSeg [38]、RD [12]和UniAD [34]进行比较。为了缓解噪声样本的影响,SoftPatch [21]提出了一种基于PatchCore的去噪机制,用于内存库的构建。因此,我们也在FUIAD设置下评估了SoftPatch方法在我们的Real-IAD数据集上的表现。主要结果如表4所示。
在无监督异常检测的设置下(噪声比率设置为零),大多数最先进的异常检测方法(如PatchCore [29]、SoftPatch [21]、SimpleNet [26]、DeSTSeg [38])在样本级和图像级异常分类上表现几乎相似。对于像素级异常分割,使用多层特征的PatchCore [29]、SoftPatch [21]和RD [12]具有更多优势,因为低层特征保留了丰富的空间位置信息。
在完全无监督异常检测的设置下,几乎所有方法在所有指标上都出现了严重的性能下降,特别是PaDim [11]、SimpleNet [26]、DeSTSeg [38]和RD [12]。无监督的PatchCore [29]由于采用了基于块的内存库机制,表现得更加稳健。在内存库中,正常和异常特征同时存储,在推理阶段,只要异常特征的分布与存储的异常特征有所不同,就能实现稳定的检测。此外,即使在样本级噪声比率较高(如0.4)的情况下,异常像素的比例实际上也很低,因此可以在一定程度上确保内存库中正常块特征的质量。
SoftPatch [21]首先过滤掉一些噪声特征,然后构建内存库,在所有方法中取得了几乎最优的性能。然而,与无监督PatchCore [29]相比,性能的提升相对有限。这意味着,完全无监督的异常检测仍然需要更多深入的研究。例如,使用模型集成方法来提高对噪声的鲁棒性,结合大规模视觉语言模型的语义理解能力来提供噪声数据的先验分布等,都是值得进一步探索的方向。
7、结论
基于对现有异常检测数据集和实际工业应用的分析,我们有以下几点观察。首先,无监督工业异常检测算法在性能上几乎已经达到了饱和点,但在实际工业检测应用中,仍然难以部署。其次,算法与应用之间存在差距,大多数算法依赖于干净的正常训练样本,而实际工业生产线中获得的数据包含一定量的噪声。最后,完全无监督的工业异常检测更适合实际应用,但现有的数据集由于样本有限,尚不足以支持相关研究。
为了解决上述问题,我们提出了一个大规模、真实世界、多视角的异常检测数据集(Real-IAD),该数据集包含15万张高分辨率图像,涵盖30种金属、塑料、木材、陶瓷和混合材料的物体,每种物体包含5种不同视角和8种常见缺陷。Real-IAD提供了像素级、图像级和样本级的高质量注释。我们建立了无监督和完全无监督两种设置,采用最先进的异常检测方法进行了广泛和全面的评估。我们希望Real-IAD能够推动异常检测领域的研究。
局限性与未来工作:本文仅报告了部分典型方法在Real-IAD上的结果。在未来,我们将复制更多的方法在Real-IAD上进行评估,并提供更多设置下的结果,例如零-shot、少-shot和半监督设置等。此外,考虑到Real-IAD的大规模和多视角特点,进一步研究适合这些特征的算法也是值得探索的方向。