【iSAID:用于航空影像实例分割的大规模数据集】
iSAID:用于航空影像实例分割的大规模数据集
摘要
现有的地球视觉(Earth Vision)数据集通常适用于语义分割或目标检测。然而,在本研究中,我们引入了首个专门用于航空影像实例分割的基准数据集,该数据集结合了实例级目标检测和像素级分割任务。与自然场景中的实例分割相比,航空影像具有独特的挑战,例如:单张图像中包含大量目标实例、目标尺度变化大,以及存在大量微小目标。 我们的大规模、高密度标注的**航空影像实例分割数据集(iSAID)**包含 655,451 个目标实例,涵盖 15 个类别,分布在 2,806 张高分辨率图像中。该数据集提供了精确的逐像素标注,确保了准确的目标定位,这对于详细的场景分析至关重要。 与现有的小规模航空影像实例分割数据集相比,iSAID 在目标类别数量上增加了 15 倍,目标实例数量增加了 5 倍。我们使用两种流行的自然图像实例分割方法 Mask R-CNN 和 PANet 对该数据集进行了基准测试。实验结果表明,直接应用现成的 Mask R-CNN 和 PANet 在航空影像上的实例分割效果较差,因而需要研究社区提供专门的解决方案来优化该任务。
1. 引言
给定一张图像,实例分割的目标是预测所有感兴趣目标的类别标签,并使用像素级掩码对其进行精确定位。大规模数据集(如 ImageNet、PASCAL VOC、MSCOCO、Cityscapes 和 ADE20K)主要包含自然场景中的目标,这些目标通常具有固定的朝向。这些数据集推动了深度卷积神经网络(CNN)的发展,使其在图像分类、目标检测、语义分割和实例分割等场景理解任务上取得了前所未有的性能提升。 然而,这些在常规图像上开发的算法并不能很好地迁移到航空影像中。相比自然图像,航空影像在高层视觉任务上具有独特的挑战,如目标密集分布、形状和方向各异、长宽比变化大,以及尺度跨度巨大。因此,需要基于合适的数据集开发专门的解决方案。为了推动航空影像在地球观测领域的应用,近年来,一些精细标注的数据集已被用于目标检测和语义标注。然而,这些数据集并未为航空影像中的每个实例提供像素级的精确标注,因此不适用于实例分割任务。此外,现有的公开实例分割数据集通常专注于单一类别,例如某些数据集仅包含建筑物轮廓,而另一些仅提供船舶标注。
为弥补现有数据集的不足,我们提出了一个大规模的航空影像实例分割数据集(iSAID)。该数据集包含 2,806 张高分辨率图像,涵盖 15 个类别,共 655,451 个目标实例。如此庞大的实例数量和类别多样性,使得 iSAID 能够应用于复杂的航空影像场景中的实际任务。
与其他航空影像实例分割数据集相比,iSAID 具有更高的多样性、全面性和挑战性,并展现出以下显著特点:
(a) 大规模高分辨率图像,适用于精细化分析;
(b) 涵盖 15 个重要且常见的类别,增强泛化能力;
(c)每个类别包含大量实例,满足深度学习模型的需求;
(d) 单张图像中包含大量标注实例,有助于学习上下文信息;
(e) 目标尺度变化巨大,在同一图像中可包含小、中、大目标,提升模型的鲁棒性;
(f) 目标分布不均衡,朝向变化复杂,更贴近真实航空影像场景;
(g) 大量小目标外观模糊,仅能通过上下文推理识别,增加任务难度;
(h) 专业标注团队进行精准的实例级标注,并由专家审核验证,确保标注质量符合严格标准。
这些特性使 iSAID 成为当前最全面、最具挑战性的航空影像实例分割数据集之一,为研究社区提供了一个理想的平台,以开发更强大的实例分割算法,并推进航空影像分析的技术进步。
图 1: iSAID 数据集中的一些典型示例,这些示例包含高密度目标、任意形状和方向、大长宽比以及巨大的尺度变化。SS 和 IS 分别表示语义分割(Semantic Segmentation)和实例分割(Instance Segmentation)。
2. 相关工作
无论是从历史背景还是近期研究来看,大规模数据集在推动场景理解任务(如图像分类、场景识别、目标检测和分割)的发展中都发挥了关键作用。例如,ImageNet 是最受欢迎的大规模图像分类数据集之一,基于该数据集的先进方法已经能够达到接近人类水平的性能。同样,大规模标注数据集(如 MSCOCO、Cityscapes 和 ADE20K)推动了自然场景目标检测、语义分割和实例分割的研究发展。引入规模更大、种类更丰富的数据集不仅能拓展新的应用领域,还能引导新的研究方向。此外,具有挑战性的数据集能够促使研究社区开发更复杂、更健壮的算法,从而使其在现实世界中得到更广泛的应用。
地理视觉(Earth Vision)研究有众多有前景的应用领域,包括安全监控、城市规划、精准农业、土地类型分类和变化检测。总体而言,当提供足够大规模的数据集时,基于深度学习的算法在多个高层视觉任务中表现出色。然而,Earth Vision 应用领域的一个关键限制在于缺乏与自然场景数据集(如 ImageNet 和 MSCOCO)规模和多样性相当的航空数据集。现有的航空影像数据集在类别数量、实例数量和标注质量方面都存在较大差距。
当将先进的目标检测方法(如 SSD)直接应用于航空图像数据集时,由于存在领域差异(domain shift)、高密度目标、大尺度变化和方向变化等问题,其检测性能往往不理想。例如,在 DOTA 数据集上的目标检测实验中,SSD 的 mAP 仅为 17.84。近期推出的大规模航空图像数据集(如 DOTA 和 xView)推动了地球观测和遥感领域的目标检测研究。这些数据集比早期的航空目标检测数据集更具多样性和复杂性,并且更适用于现实世界的应用。然而,这些数据集并未提供针对每个目标实例的像素级掩码,因此无法用于实例分割任务。
实例分割比普通目标检测更具挑战性,它不仅需要检测目标,还需要实现每个目标实例的精确像素级定位。然而,目前在航空影像领域尚无大规模的实例分割标注数据集。现有的少数公开数据集通常仅包含单一类别的实例(例如 ships 数据集仅标注了船只,buildings 数据集仅标注了建筑物)。鉴于航空影像任务中对目标实例精准定位的需求,我们引入了一个全新的数据集 iSAID。与现有数据集相比,iSAID 规模更大、挑战性更高、标注更加精细,且包含的目标类别数量是现有数据集的 15 倍,目标实例数量是现有数据集的 5 倍。
3. 数据集详情
3.1. 图像、类别与数据集划分
为了构建用于实例分割任务的数据集,我们基于大规模航空影像数据集 DOTA,该数据集包含 2,806 张图像。这些图像来自多个传感器和平台,以减少数据偏差。然而,原始的 DOTA 数据集仅提供用于目标检测的边界框标注,因此无法用于精确的实例分割。此外,DOTA 还存在一些问题,例如错误的标签、缺失的目标实例标注以及不准确的边界框。为了解决这些问题,我们从零开始独立标注了新的实例分割数据集,使得实例总数达到 655,451,而 DOTA 原始数据集仅包含 188,282 个实例(相对增加约 250%,示例见图 2)。
需要注意的是,与常规图像数据集相比,航空影像实例分割数据集面临独特的挑战,例如目标细节较少、目标尺寸较小以及不同的视角变化(见图 3)。另一方面,如表 1 所示,大多数现有的航空影像数据集仅使用边界框或点标注来粗略地定位目标实例。此外,这些数据集通常规模较小,目标类别数量有限。相比之下,我们提出的 iSAID 数据集包含大量实例,并提供精确的实例分割掩码,以标注其在图像中的确切位置(见图 6)。目前,航空影像领域仅有两个实例分割数据集,而且都只包含单一类别的目标(如 ships 仅包含船只,buildings 仅包含建筑物)。相比之下,iSAID 覆盖了 15 个不同类别,并且数据规模大幅提升(实例数量约为现有数据集的 5 倍)。
表 1: 航空数据集对比。中心点表示仅提供实例中心坐标的标注。
在选择目标类别时,我们遵循航空影像解译领域的专家建议,并对以下 15 个类别进行标注:飞机(plane)、船(ship)、储罐(storage tank)、棒球场(baseball diamond)、网球场(tennis court)、篮球场(basketball court)、跑道(ground track field)、港口(harbor)、桥梁(bridge)、大型车辆(large vehicle)、小型车辆(small vehicle)、直升机(helicopter)、环岛(roundabout)、游泳池(swimming pool)和足球场(soccer ball field)。这些类别在航空影像中较为常见,并且对多个实际应用具有重要意义。
在数据集划分方面,我们使用原始图像的一半作为训练集(train set),1/6 作为验证集(validation set),1/3 作为测试集(test set)。训练集和验证集的图像及标注数据将公开发布,而测试集仅公开图像,不提供标注数据。测试集的标注将用于搭建评估服务器,以便研究人员能够公平地比较不同的方法性能。
图 2: DOTA 与 iSAID 数据集缺失标注的可视化对比。
图 3: 来自 MSCOCO(奇数列)和 iSAID(偶数列)的船只、公交车和汽车。请注意物体的尺寸变化以及图像拍摄角度的不同。
3.2. 标注流程
我们设计了一条完整的标注流程,以确保所有图像的标注一致、准确且完整。该流程包括以下步骤:制定标注指南、培训标注员、图像标注、质量检查以及标注优化,直到达到满意的结果。对于标注工作,我们使用了一款高质量的内部软件 Haibei,用于在图像上绘制实例分割掩码。
为了获得高质量的标注,为标注员提供清晰且详细的指导至关重要。借鉴先前提出的数据集的经验,我们制定了以下标注指南:
- 必须标注所有清晰可见的 15 类 目标;
- 每个实例的分割掩码应与其在图像中的视觉边界精确匹配;
- 在必要时应放大或缩小图像,以获取更精细的边界标注;
- 对于不清晰或难以标注的目标,应由团队主管审核,并进行讨论,以确保高置信度的标注;
- 所有标注工作应在同一场所,使用相同的软件完成。
iSAID 数据集的图像均由专业标注员进行标注。 即使标注员具备先前标注经验,我们仍要求他们经过多轮培训。在培训阶段,每位标注员都会被展示包含 15 类目标 的正例和反例。此外,我们还制定了评估机制,以筛选最优秀的标注员。具体流程如下:
- 标注员需要按照既定的标注指南,对若干包含 简单与复杂案例 的样本图像进行标注;
- 标注质量会经过交叉检查,以评估其标注表现;
- 只有通过测试的标注员才被批准参与本项目。
一般来说,最终入选的标注员会接受 约 4 小时的专业训练,然后正式开始标注真实的航拍图像数据集。在标注过程的初始阶段,监督团队将不同的图像集分配给标注员。标注员需要对图像中出现的 15 类目标 进行标注。由于图像具有较高的空间分辨率且包含大量实例,每位标注员 平均需要约 3.5 小时 才能完成一张图像的标注。因此,2,806 张图像 的总标注时长约为 409 人工小时(不包括交叉检查和优化)。
在完成第一轮标注后,我们实施了 五阶段的质量控制流程,以确保标注质量:
- 自查阶段:标注员需检查自己完成的标注,并修正 重复标注、错误标注、遗漏目标、边界不准确 等问题;
- 交叉审核:标注员轮流检查其他人的标注结果。在此阶段,每个类别的目标掩码都会被裁剪并存放在一个单独的目录中,以便 快速识别和修正标注错误;
- 随机抽查 70%(约 2000 张)图像:监督团队对这些图像的标注质量进行分析;
- 专家复核 20%(约 500 张)图像:如果发现问题,标注数据会 多轮返修,直至专家对标签质量满意;
- 统计分析:计算 实例面积、长宽比等 统计数据,并对异常数据进行复核,确保它们的标注正确无误。
3.3 iSAID 数据集统计分析
在本节中,我们分析 iSAID 数据集的特性,并将其与其他相关数据集进行对比。
图 4:iSAID 数据集中类别和实例的统计信息。
(a) 按频率排序的每个类别的实例数量直方图。
(b) 每张图像中的实例数量直方图。
(c)每张图像中的类别数量直方图。
(d) 实例总数 vs. 每张图像的实例数量(对比本数据集与其他大规模常规数据集)。圆的大小表示类别数量,例如,大圆表示包含大量目标类别。
图像分辨率
自然图像数据集(如 PASCAL-VOC [8]、ImageNet [7])的图像通常尺寸有限,很少超过 1000×1000 像素。相比之下,航空影像的分辨率远高于自然图像数据集,例如 COWC [23] 数据集中某些图像的宽度可达 19,000 像素。在 iSAID 数据集中,图像的空间分辨率 宽度范围为 800 至 13,000 像素。
在如此高分辨率的航空影像上,直接应用现有的目标检测和实例分割方法 可能会导致次优结果,这一点将在实验部分进一步讨论。
实例数量
我们的数据集共包含 655,451 个实例,涵盖 15 个类别。
- 类别不均衡问题:从 图 4a 可以看出,某些类别的实例数量远少于其他类别。例如,小型车辆(small vehicle) 是最常见的类别,而 地面跑道(ground track field) 则是最少的类别。这种类别不均衡现象在自然图像和航空影像数据集中都很常见,并且在实际应用中需要特别关注 [13]。
- 类别共存情况:图 4c 展示了数据集中同时包含多个类别的图像数量分布。在 iSAID 数据集中,每张图像平均包含 3.27 个类别。
- 高密度目标实例:航空影像数据集的一个显著特征是 单张图像中包含大量实例,这是由于其 大视野范围(large field of view) 所导致的。在 图 4b 中可以看到,某些图像的目标实例数量最高可达 8,000 个。
- 实例密度对比:图 4d 显示,iSAID 数据集的 每张图像平均包含 239 个实例,这一数量远高于传统的大规模实例分割数据集,例如:
- MSCOCO [17]:7.1 个实例/图像
- Cityscapes [6]:2.6 个实例/图像
- PASCAL-VOC [8]:10.3 个实例/图像
- ADE20K [34]:19.5 个实例/图像
- NYU Depth V2 [24]:23.5 个实例/图像
其中,高密度目标实例通常出现在 停车场(parking lots)和码头(marina) 等场景中。
类别的面积分布(Area of categories)。 在自然图像和航空影像中,目标的尺寸各不相同。因此,实例分割方法应具备足够的灵活性和高效性,以同时处理小、中、大尺度的目标 [32]。在我们的数据集中,我们将10至144像素范围内的目标视为小目标,144至1024像素范围内的目标视为中目标,1024像素及以上的目标视为大目标。在iSAID数据集中,小、中、大目标的比例分别为52.0%、33.7%和9.7%。
图 5: 箱线图显示每个对象类别的面积范围。对象的大小在类别内部和类别之间均存在较大差异。
图 6: DOTA [32] 与我们的数据集 (iSAID) 在每个类别的实例数量方面的比较。iSAID 的实例总数是 DOTA 的 3.5 倍。
图 7: iSAID 数据集中图像和实例的统计信息。(a) 最大对象与最小对象的面积比,展示了巨大的尺度变化。(b) 展示了 iSAID 数据集中实例的长宽比存在较大变化。
图5 中的箱线图展示了iSAID中各类别的面积统计信息。可以看出,目标的大小在类内和类间均存在显著差异。例如,船舶类别(ship) 包含:
- 小型船只(面积仅 10 像素),
- 大型船舶(面积高达 1,436,401 像素),
这表明该类别内部存在巨大的尺度变化。类似地:
- **小型车辆(small vehicle)**的面积最小可达 10 像素,
- **跑道(ground track field)**的面积最大可达 1,297,121 像素,
这说明了巨大的类间尺度变化。图7a 展示了同一类别或不同类别的小目标与大目标共同出现时的尺度变化情况,这在航空影像中是非常常见的。可以观察到,最大目标与最小目标的面积比可达20,000倍。这种极端的尺度变化对实例分割方法提出了严峻挑战,要求其能同时处理极小和超大目标。
长宽比(Aspect ratio)。 在航空影像中,许多目标具有异常大的长宽比,而这在传统的地面图像中并不常见。图7b 描绘了我们数据集中目标实例的长宽比分布。可以观察到,实例的长宽比变化极大,最高可达90(平均长宽比为 2.4)。此外,我们的数据集中存在大量长宽比较大的实例。
图 9: iSAID 测试集图像的可视化结果。可以注意到,原始 Mask R-CNN [10] 产生的结果最不准确,存在遗漏的目标实例。而 PANet++ 相比其原始版本 [18],以及 Mask R-CNN 和 Mask R-CNN+,能够生成明显更优的结果。
4. 实验
在本部分,我们测试通用实例分割方法(特别是为常规场景数据集开发的方法)在我们新构建的航空影像数据集上的表现(部分示例图像见图 8)。为此,我们使用 Mask R-CNN [10] 和 PANet [18]:前者因其作为元算法(meta algorithm)的流行性,后者因其最新的前沿表现(state-of-the-art results)。此外,我们对基线模型进行了简单修改并报告这些改进版本的结果。
对于评估,我们使用标准的 COCO 指标:
AP(在 IoU 阈值上的平均值)、AP50、AP75、APS、APM 和 APL,其中 S、M 和 L 分别表示小目标(面积:10-144 像素)、中目标(面积:144-1024 像素)和大目标(面积:1024 及以上)。
实现细节。
在 iSAID 数据集中通常存在大分辨率图像(例如,宽度 4000 像素)。基线方法 [10,18] 无法处理如此大的空间维度,因此我们选择在 800×800 尺寸的图像块上训练和测试基线方法,这些图像块从完整分辨率图像中裁剪,步长设为 200。
为了训练 Mask R-CNN 和 PANet 基线模型,我们使用与原始论文 [10,18] 相同的超参数。在训练阶段,裁剪后的图像块被重新缩放,短边设为 800 像素,长边设为 1400 像素。在裁剪过程中,部分目标可能会被截断,因此我们为这些图像块生成新的标注信息,并更新其分割掩码。训练时,我们使用mini-batch 大小 16,在 8 块 GPU 上训练 180k 次迭代,初始学习率设为 0.025,在 90k 次迭代时衰减 10 倍。我们使用权重衰减(weight decay)0.0001 和动量(momentum)0.9。
为了对所提出的数据集进行基准测试,我们选择 原始 Mask R-CNN [10] 和 PANet [18] 作为基线模型,两者均采用 ResNet101-FPN 作为骨干网络(backbone)。在基线模型中,我们未更改任何超参数设置。
在此基础上,我们进行三项轻微修改,以提出 Mask R-CNN+ 和 PANet+:
(a) 由于每幅航空影像中目标数量较多,我们在评估过程中将检测框数量从默认的 100 提高至 1000。
(b) 由于航空影像中存在较大的尺度变化,我们在 六个尺度(1200, 1000, 800, 600, 400)上使用尺度增强,而基线模型仅考虑 800 像素短边的单尺度。
(c) 我们将 NMS(非极大值抑制) 阈值从 0.5 调整为 0.6。
最后,对于我们最好的模型(PANet),我们尝试更深的骨干网络(ResNet-152-FPN),从而实现实例分割和目标检测的最佳性能。我们将该模型命名为 PANet++。需要注意的是,这些基线修改较为简单,我们预计更复杂的算法改进可能会显著提升结果。
表 2: iSAID 测试集上基于 Mask AP 的实例分割结果。PANet [18] 及其变体显著优于 Mask R-CNN [10] 及其变体。采用 ResNet-152 作为骨干网络的 PANet++ 取得最佳性能。
表 3: iSAID 测试集上基于边界框 AP 的目标检测结果。与实例分割情况类似,PANet [18] 及其变体的表现优于 Mask R-CNN 及其变体。
表 4: iSAID 测试集上按类别划分的实例分割结果。请注意,类别使用缩写表示:
BD-棒球场, GTF-跑道, SV-小型车辆, LV-大型车辆, TC-网球场, BC-篮球场, SC-储油罐, SBF-足球场, RA-环岛, SP-游泳池, HC-直升机。
表 5: iSAID 测试集上按类别划分的目标检测结果。类别缩写与表 4 中相同。
4.1. 结果(Results)
在 表2 中,我们报告了基线模型(Mask R-CNN [10] 和 PANet [18])及其变体在实例分割(instance segmentation)任务上的结果。可以看到,PANet [18] 在默认参数下优于 Mask R-CNN [10] 在 iSAID 数据集上的表现。这一趋势与这些基线模型在 MSCOCO 数据集(用于常规地面图像的实例分割)上的性能类似。此外,通过对基线模型进行微小修改以适应航空影像,我们获得了一定的性能提升。例如,Mask R-CNN+ 相比原始 Mask R-CNN [10] 取得了 7.8 AP 的绝对提升。
最佳性能 由 PANet++ 取得,该模型使用了更强大的 ResNet-152-FPN 作为主干网络(backbone)。为了研究不同类别的性能趋势,我们在 表4 中报告了各类别的 AP(Average Precision)。值得注意的是,在 PANet++ 的情况下,一些类别(如 棒球场(baseball diamond)、篮球场(basketball court)和港口(harbour))的 AP50 取得了 ≈5 分或更高的提升。
除了实例分割掩码(instance segmentation masks)之外,我们还计算了目标检测(object detection)的结果,具体见 表3 和 表5。在该实验中,我们考虑的是水平边界框(horizontal bounding boxes)。对于目标检测任务,我们观察到不同方法的排名趋势与实例分割任务相似。值得注意的是,我们的结果低于 [32] 中报告的结果,这可能是由于 iSAID 数据集中新增了大量目标实例(iSAID: 655,451 vs. DOTA: 188,282)。
图9 显示了实例分割的定性结果(qualitative results)。我们展示了 Mask R-CNN 和 PANet 以及它们的改进版本的结果。可以观察到,通过对这些强基线模型进行简单修改,我们能够显著提升对极端尺寸目标(超小和超大目标)的分割效果。如定量结果所示,PANet++ 在所有评估模型中取得了最具说服力的定性结果,生成了最准确的实例分割掩码。
5. 结论(Conclusion)
在航空影像中精确描绘每个目标实例既是一个具有实际意义的问题,也是一个科学上具有挑战性的问题。然而,由于缺乏大规模、高密度标注、并包含准确实例掩码的卫星影像数据集,该领域的研究进展一直受到限制。
为了弥补这一空白,我们提出了一个新的实例分割数据集,该数据集涵盖了 15 种目标类别,总计 655,451 个实例。我们在实例分割和目标检测任务上对该数据集进行了广泛的基准测试。
实验结果表明,航空影像为现有实例分割算法带来了新的挑战,包括:
- 单幅图像中的目标数量众多,
- 外观细节有限,
- 大量小目标,
- 不同类别之间存在显著的尺度变化,
- 类别不均衡问题严重。
我们希望这一研究能够推动航空影像领域实例分割任务的新发展。