当前位置：首页 > article >正文

【目标检测】【PANet】Path Aggregation Network for Instance Segmentation

article 2025/2/22 22:44:37

实例分割的路径聚合网络
在这里插入图片描述

0.论文摘要

信息在神经网络中的传播方式至关重要。在本文中，我们提出了路径聚合网络（PANet），旨在增强基于提议的实例分割框架中的信息流动。具体而言，我们通过自底向上的路径增强，在较低层中引入精确的定位信号，从而缩短了较低层与最顶层特征之间的信息路径。我们提出了自适应特征池化，将特征网格与所有特征层级连接起来，使每个层级中的有用信息能够直接传播到后续的提议子网络中。此外，我们还创建了一个互补分支，为每个提议捕捉不同的视角，以进一步提高掩码预测的准确性。这些改进实现简单，仅带来微小的额外计算开销，但却非常有效，使我们的PANet在COCO 2017挑战赛的实例分割任务中获得了第一名，在目标检测任务中获得了第二名，且无需大规模批量训练。PANet在MVD和Cityscapes数据集上也达到了最先进的水平。

1.引言

实例分割是最重要且具有挑战性的任务之一。其目标是预测类别标签和像素级的实例掩码，以定位每张图像中呈现的不同数量的实例。该任务在自动驾驶、机器人技术、视频监控等领域具有广泛的应用价值。

在深度卷积神经网络的帮助下，提出了多个实例分割框架，例如[21, 33, 3, 38]，其性能迅速提升[12]。Mask R-CNN [21] 是一个简单而有效的实例分割系统。基于Fast/Faster R-CNN [16, 51]，它使用全卷积网络（FCN）进行掩码预测，同时进行边界框回归和分类。为了实现高性能，采用了特征金字塔网络（FPN）[35]来提取网络内的特征层次结构，其中通过横向连接增强的自顶向下路径用于传播语义较强的特征。

近期发布的多个数据集[37, 7, 45]为新算法的设计提供了便利。COCO [37]包含20万张图像，每张图像中捕捉了多个具有复杂空间布局的实例。与之不同的是，Cityscapes [7]和MVD [45]提供了街道场景，每张图像中包含大量交通参与者。这些数据集中出现了模糊、严重遮挡和极小的实例。

在图像分类中设计网络的几项原则同样适用于目标识别。例如，通过简洁的残差连接[23, 24]和密集连接[26]来缩短信息路径并促进信息传播是有效的。此外，通过采用分割-变换-合并策略[61, 6]创建并行路径，增加信息路径的灵活性和多样性也是有益的。

我们的研究发现，当前最先进的Mask R-CNN模型中的信息传播仍有进一步优化的空间。具体而言，低层特征对于大尺寸实例的识别具有帮助，但从低层结构到顶层特征的路径较长，增加了获取精确定位信息的难度。此外，每个候选框的预测基于从某一特征层级池化得到的特征网格，而该层级是启发式分配的。由于其他层级中丢弃的信息可能对最终预测有帮助，这一过程可以进一步改进。最后，掩码预测仅基于单一视角进行，错失了获取更多多样化信息的机会。

基于这些原则和观察，我们提出了PANet，如图1所示，用于实例分割。

在这里插入图片描述

图1. 我们框架的示意图。(a) FPN骨干网络。(b) 自底向上的路径增强。© 自适应特征池化。(d) 边界框分支。(e) 全连接融合。注意，为了简洁起见，我们在(a)和(b)中省略了特征图的通道维度。

首先，为了缩短信息路径并利用低层次中存在的精确定位信号增强特征金字塔，我们创建了自底向上的路径增强。事实上，低层特征在[44, 42, 13, 46, 35, 5, 31, 14]等系统中已被使用。但传播低层特征以增强整个特征层次结构用于实例识别的方法尚未被探索。

其次，为了恢复每个提案与所有特征层级之间的断裂信息路径，我们开发了自适应特征池化。这是一个简单的组件，用于为每个提案聚合来自所有特征层级的特征，避免任意分配的结果。通过这一操作，相比[4, 62]中的方法，我们创建了更清晰的路径。

最后，为了捕捉每个提案的不同视角，我们通过引入微小的全连接（fc）层来增强掩码预测，这些层具有与Mask R-CNN最初使用的FCN互补的特性。通过融合这两种视角的预测，信息多样性得以增加，从而生成质量更高的掩码。

前两个组件在目标检测和实例分割中共享，从而显著提升了这两项任务的性能。

通过PANet，我们在多个数据集上实现了最先进的性能。以ResNet-50 [23] 作为初始网络，我们的PANet在单尺度测试下已经在目标检测 [27] 和实例分割 [33] 任务中超越了COCO 2016挑战赛的冠军。需要注意的是，这些先前的结果是由更大的模型 [23, 58] 结合多尺度和水平翻转测试实现的。

我们在COCO 2017挑战赛的实例分割任务中获得了第一名，并在目标检测任务中获得了第二名，且无需进行大批量训练。我们还在Cityscapes和MVD数据集上对我们的系统进行了基准测试，同样取得了顶尖的排名，这表明我们的PANet是一个非常实用且性能卓越的框架。我们的代码和模型将公开提供。

2.相关工作

实例分割

实例分割方法主要分为两大类。最流行的一类是基于候选区域的方法。这类方法与目标检测有很强的关联。在R-CNN [17]中，来自[60, 68]的目标候选区域被输入网络以提取特征进行分类。Fast R-CNN [16, 51]、Faster R-CNN [16, 51]和SPPNet [22]通过从全局特征图中池化特征来加速这一过程。早期的工作[18, 19]将MCG [1]生成的掩码候选区域作为输入来提取特征，而CFM [9]、MNC [10]和Hayder等人[20]则将特征池化与网络结合以加快速度。更新的设计是在网络中生成实例掩码作为候选区域[48, 49, 8]或最终结果[10, 34, 41]。Mask R-CNN [21]是这类方法中的一个有效框架。我们的工作基于Mask R-CNN，并在重要方面对其进行了改进。

另一流派的方法主要基于分割。它们学习了专门设计的变换[3, 33, 38, 59]或实例边界[30]，然后从预测的变换中解码出实例掩码。其他流程的实例分割也存在。DIN[2]融合了目标检测和语义分割系统的预测结果。[66, 65]中使用图模型来推断实例的顺序。[53, 50]中利用RNN在每一步提出一个实例。

多层级特征

在图像识别中，使用了来自不同层的特征。SharpMask [49]、Peng等人 [47] 和 LRR [14] 通过融合特征图来实现具有更精细细节的分割。FCN [44]、U-Net [54] 和 Noh等人 [46] 通过跳跃连接融合了来自较低层的信息。TDM [56] 和 FPN [35] 都通过横向连接增强了自上而下的路径，用于目标检测。与 TDM 不同，TDM 使用最高分辨率的融合特征图来池化特征，而 SSD [42]、DSSD [13]、MS-CNN [5] 和 FPN [35] 则将建议分配到适当的特征层进行推理。我们以 FPN 为基线，并对其进行了大幅增强。

ION [4]、Zagoruyko 等人 [62]、Hypernet [31] 和 Hypercolumn [19] 通过拼接不同层的特征网格来提升预测效果。为了获得可行的新特征，需要进行一系列操作，包括归一化、拼接和降维。相比之下，我们的设计则更为简洁。

在[52]中，也采用了融合来自不同源的特征网格的方法。但该方法在不同尺度的输入上提取特征图，然后通过最大操作进行特征融合，以改进从输入图像金字塔中选择特征。相比之下，我们的方法旨在利用单尺度输入下网络内特征层次结构中所有特征层的信息，并实现端到端的训练。

更大的上下文区域

[15, 64, 62] 的方法通过使用中心凹结构对每个提案的特征进行池化，以利用来自不同分辨率区域的上下文信息。从较大区域池化的特征提供了周围环境的上下文信息。PSPNet [67] 和 ParseNet [43] 中使用了全局池化，极大地提高了语义分割的质量。Peng 等人 [47] 也观察到了类似的趋势，他们利用了全局卷积。我们的掩码预测分支也支持访问全局信息，但所采用的技术完全不同。

3.框架

我们的框架如图1所示。为了提升性能，我们进行了路径增强和聚合。通过增强自底向上的路径，使低层信息更容易传播。我们设计了自适应特征池化，使每个提议都能访问所有层级的信息以进行预测。在掩码预测分支中添加了一条互补路径。这种新结构带来了显著的性能提升。与FPN类似，这种改进与CNN结构（如[57, 32, 23]）无关。

在这里插入图片描述

图1. 我们框架的示意图。(a) FPN主干网络。(b) 自底向上的路径增强。© 自适应特征池化。(d) 边界框分支。(e) 全连接融合。请注意，为了简洁起见，我们在(a)和(b)中省略了特征图的通道维度。

3.1 自底向上路径增强

动机 [63] 中提出的深刻观点指出，高层神经元对整体对象有强烈响应，而其他神经元更可能被局部纹理和模式激活，这体现了在FPN中增加自上而下路径以传播语义强特征并增强所有具有合理分类能力的特征的必要性。

我们的框架通过基于低层模式强响应的传播，进一步增强了整个特征层次结构的定位能力，因为对边缘或实例部分的高响应是准确定位实例的强有力指标。为此，我们构建了一条从低层到高层的干净横向连接路径。这一过程产生了一条“捷径”（图1中的绿色虚线），它由不到10层组成，跨越这些层次。相比之下，FPN中的CNN主干提供了一条长路径（图1中的红色虚线），从低层到最高层需要经过100多层。

增强的自底向上结构我们的框架首先实现了自底向上的路径增强。我们遵循FPN的定义，将生成具有相同空间尺寸特征图的层归为同一网络阶段。每个特征层级对应一个阶段。我们同样以ResNet [23] 作为基础结构，并使用 ${P_2, P_3, P_4, P_5\}$ 表示由FPN生成的特征层级。我们的增强路径从最低层级P2开始，逐步接近P5，如图1(b)所示。从P2到P5，空间尺寸逐渐以2为因子进行下采样。我们使用 ${N_2, N_3, N_4, N_5\}$ 表示与 ${P_2, P_3, P_4, P_5\}$ 对应的新生成的特征图。需要注意的是， $N_2$ 即为 $P_2$ ，未经过任何处理。

如图2所示，每个构建模块通过横向连接接收一个高分辨率的特征图Ni和一个较粗糙的图 $P_{i+1}$ ，并生成新的特征图 $N_{i+1}$ 。每个特征图Ni首先经过一个步幅为2的3×3卷积层，以减少空间尺寸。然后，通过横向连接将特征图 $P_{i+1}$ 的每个元素与下采样后的图相加。融合后的特征图随后通过另一个3×3卷积层进行处理，生成用于后续子网络的 $N_{i+1}$ 。这是一个迭代过程，在接近P5时终止。在这些构建模块中，我们始终使用256通道的特征图。所有卷积层后都跟随一个ReLU[32]。然后，从新的特征图（即 ${N_2, N_3, N_4, N_5\}$ ）中池化出每个提议的特征网格。

在这里插入图片描述

图2. 自底向上路径增强构建模块的示意图。

3.2 自适应特征池化

在FPN [35]中，提案根据其大小被分配到不同的特征层级。这使得较小的提案被分配到较低的特征层级，而较大的提案则被分配到较高的层级。尽管这种方法简单有效，但可能会产生非最优的结果。例如，两个仅有10像素差异的提案可能会被分配到不同的层级。实际上，这两个提案非常相似。

此外，特征的重要性可能与其所属的层次并不强相关。高层次特征通过较大的感受野生成，能够捕捉更丰富的上下文信息。允许小尺寸的候选区域访问这些特征，可以更好地利用有用的上下文信息进行预测。同样，低层次特征包含许多细节信息且具有较高的定位精度。让大尺寸的候选区域访问这些特征显然是有益的。基于这些考虑，我们提出为每个候选区域从所有层次池化特征，并将它们融合用于后续的预测。我们将这一过程称为自适应特征池化。

我们现在分析通过自适应特征池化从不同层级汇聚的特征比例。我们使用最大操作来融合来自不同层级的特征，这使得网络能够逐元素选择有用的信息。我们根据提案最初在FPN中被分配的层级，将提案聚类为四类。对于每一组提案，我们计算从不同层级选择的特征比例。在表示中，层级1至4代表从低到高的层级。

如图3所示，蓝线代表在FPN中最初被分配到第1层的小型候选区域。令人惊讶的是，近70%的特征来自其他更高层级。我们还用黄线表示在FPN中被分配到第4层的大型候选区域。同样，超过50%的特征是从其他更低层级池化而来的。这一观察结果清楚地表明，多个层级的特征共同作用有助于提高预测的准确性。这也为设计自底向上的路径增强提供了强有力的支持。

在这里插入图片描述
图3. 使用自适应特征池化从不同特征层级池化特征的比率。每条线代表一组应分配到FPN中同一特征层级的提议框，即具有相似尺度的提议框。横轴表示池化特征的来源。图中显示，不同大小的提议框都利用了来自多个层级的特征。

自适应特征池化结构在实现上其实很简单，如图1©所示。首先，对于每个候选区域，我们将它们映射到不同的特征层级，如图1(b)中的深灰色区域所示。遵循Mask R-CNN [21]的方法，使用ROIAlign从每个层级池化特征网格。然后，利用融合操作（逐元素最大值或求和）将来自不同层级的特征网格进行融合。

在以下子网络中，池化后的特征网格分别通过一个参数层，随后进行融合操作，以使网络能够适应特征。例如，在FPN的边界框分支中有两个全连接层，我们在第一层之后应用融合操作。由于Mask R-CNN中的掩码预测分支使用了四个连续的卷积层，我们将融合操作放置在第一个和第二个卷积层之间。消融实验在第4.2节中给出。融合后的特征网格用于每个提案的进一步预测，即分类、边界框回归和掩码预测。

我们的设计专注于融合网络内部特征层次的信息，而非来自输入图像金字塔不同特征图的信息[52]。与[4, 62, 31]中的过程相比，它更为简单，后者需要进行L2归一化、拼接和降维操作。

3.3 全连接融合

动机全连接层或多层感知器（MLP）在实例分割中的掩码预测[10, 41, 34]和掩码提议生成[48, 49]中被广泛使用。[8, 33]的结果表明，全卷积网络（FCN）在预测实例的像素级掩码方面同样表现出色。最近，Mask R-CNN [21]在池化后的特征网格上应用了一个小型FCN来预测相应的掩码，从而避免了类别之间的竞争。

我们注意到全连接层（fc layers）与全卷积网络（FCN）相比具有不同的特性，后者基于局部感受野在每个像素上进行预测，并且参数在不同空间位置共享。相反，全连接层对位置敏感，因为不同空间位置的预测是通过不同的参数集实现的，因此它们能够适应不同的空间位置。此外，每个空间位置的预测都是基于整个提案的全局信息进行的。这有助于区分实例[48]并识别属于同一对象的不同部分。鉴于全连接层和卷积层的不同特性，我们融合了这两种层的预测结果，以获得更好的掩码预测。

掩码预测结构我们的掩码预测组件轻量且易于实现。掩码分支在每个提议的池化特征网格上操作。如图4所示，主路径是一个小型全卷积网络（FCN），由4个连续的卷积层和1个反卷积层组成。每个卷积层包含256个3×3的滤波器，反卷积层将特征上采样2倍。它独立地为每个类别预测一个二值像素级掩码，以解耦分割和分类，类似于Mask R-CNN。我们进一步创建了一条从conv3层到全连接层的短路径。其中有两个3×3的卷积层，第二个卷积层将通道数减半以减少计算开销。

一个全连接层用于预测类别无关的前景/背景掩码。它不仅高效，而且允许全连接层的参数通过更多样本进行训练，从而具有更好的泛化能力。我们使用的掩码大小为28×28，因此全连接层生成一个784×1×1的向量。该向量被重塑为与FCN预测的掩码相同的空间大小。为了获得最终的掩码预测，将FCN中每个类别的掩码与全连接层的前景/背景预测相加。仅使用一个全连接层而不是多个全连接层进行最终预测，可以避免将隐藏的空间特征图压缩为短特征向量的问题，从而保留空间信息。

4.实验

我们在具有挑战性的COCO [37]、Cityscapes [7]和MVD [45]数据集上将我们的方法与最先进的技术进行了比较。我们的结果在所有这些数据集中均名列前茅。我们在COCO数据集上进行了全面的消融研究，并展示了我们在COCO 2017实例分割和物体检测挑战中的结果。

4.1 实现细节

我们基于Caffe [29]重新实现了Mask R-CNN和FPN。实验中使用的所有预训练模型均为公开可用。我们采用以图像为中心的训练方法 [16]。对于每张图像，我们采样512个感兴趣区域（ROIs），正负样本比例为1:3。权重衰减为0.0001，动量设置为0.9。其他超参数根据数据集略有不同，我们将在各自的实验中详细说明。遵循Mask R-CNN的做法，为了便于消融实验和公平比较，候选区域来自独立训练的RPN [35, 51]，即骨干网络不与目标检测和实例分割共享。

4.2 COCO上的实验

COCO [37] 数据集由于数据复杂性，是实例分割和目标检测中最具挑战性的数据集之一。它包含115k张训练图像和5k张验证图像（2017年新划分）。20k张图像用于test-dev，20k张图像用于test-challenge。test-challenge和test-dev的真实标签均未公开。该数据集包含80个类别，并提供了像素级的实例掩码标注。我们在train-2017子集上训练模型，并在val-2017子集上进行消融实验并报告结果。我们还报告了test-dev上的结果以进行比较。

我们遵循标准的评估指标，即AP、AP50、AP75、APS、APM和APL。后三个指标衡量不同尺度物体的性能。由于我们的框架适用于实例分割和物体检测，我们还训练了独立的物体检测器。我们报告了独立训练的物体检测器的掩码AP、框AP（APbb），以及以多任务方式训练的物体检测分支的框AP（APbbM）。

超参数我们每次训练时使用16张图像作为一个图像批次。除非特别说明，图像的短边和长边分别为800和1000。对于实例分割任务，我们以0.02的学习率训练模型12万次迭代，然后以0.002的学习率再训练4万次迭代。对于目标检测任务，我们训练一个不带掩码预测分支的目标检测器。目标检测器以0.02的学习率训练6万次迭代，然后以0.002的学习率再训练2万次迭代。这些参数直接采用自Mask R-CNN和FPN，未进行任何微调。

实例分割结果我们报告了PANet在test-dev上的性能，以进行比较，包括使用和不使用多尺度训练的情况。如表1所示，我们的PANet使用ResNet-50在多尺度图像上训练并在单尺度图像上测试，已经超越了Mask R-CNN和2016年的冠军，后者使用了更大的模型集成和测试技巧[23, 33, 10, 15, 39, 62]。在相同的图像尺度800下进行训练和测试，我们的方法在相同的初始模型下比单模型Mask R-CNN高出近3个点。

在这里插入图片描述

与Mask R-CNN采用的方式类似，我们也报告了从边界框分支推断出的目标检测结果。表2显示，我们的方法使用ResNet-50，在单尺度图像上进行训练和测试，大幅超越了所有其他单模型方法，即使这些方法使用了更大的ResNeXt-101 [61]作为初始模型。通过多尺度训练和单尺度测试，我们的PANet结合ResNet-50超越了2016年的冠军方法，后者使用了更大的模型集成和测试技巧。

在这里插入图片描述
组件消融研究首先，我们分析了每个提出组件的重要性。除了自底向上的路径增强、自适应特征池化和全连接融合外，我们还分析了多尺度训练、多GPU同步批归一化[67, 28]以及更重的头部结构。对于多尺度训练，我们将长边设置为1,400，另一边的范围从400到1,400。在使用多GPU同步批归一化时，我们基于所有GPU上一个批次中的所有样本计算均值和方差，训练过程中不固定任何参数，并使所有新层后接一个批归一化层。更重的头部结构使用4个连续的3×3卷积层，这些层在框分类和框回归中共享，而不是使用两个全连接层。这与[36]中使用的头部结构类似，但在[36]中，框分类和框回归分支的卷积层并不共享。

我们的消融研究从基线模型逐步加入所有组件，并在val-2017子集上进行，结果如表3所示。ResNet-50 [23] 是我们的初始模型。我们以掩码AP、独立训练的目标检测器的框AP（APbb）以及多任务训练方式下框分支的框AP（APbbM）来报告性能。

在这里插入图片描述

表3. 展示了独立训练的目标检测器在val-2017数据集上的性能，包括掩码AP（AP）、边界框AP（APbb）以及多任务训练方式下边界框分支的AP（APbbM）。基于我们重新实现的基线模型（RBL），我们逐步添加了多尺度训练（MST）、多GPU同步批归一化（MBN）、自底向上路径增强（BPA）、自适应特征池化（AFP）、全连接融合（FF）和更重的头部（HHD）进行消融研究。MRB是原始论文中报告的Mask R-CNN结果。最后一行展示了与基线RBL相比的总改进。

重新实现了基线模型。我们重新实现的Mask R-CNN与原论文中描述的性能相当，且我们的目标检测器表现更优。
多尺度训练与多GPU同步BN。这两种技术有助于网络更好地收敛，并提高泛化能力。
自底向上的路径增强。无论是否使用自适应特征池化，自底向上的路径增强均能持续提升掩码AP和边界框APbb，分别超过0.6和0.9。对大实例的改进尤为显著，体现了从低层特征传递信息的有用性。
自适应特征池化。无论是否使用自底向上的路径增强，自适应特征池化在所有尺度上都能持续提升性能，这与我们之前的观察一致，即其他层的特征在最终预测中也很有用。
全连接融合。全连接融合能够预测出质量更高的掩码，在掩码AP上带来了0.7的提升。这一改进适用于所有尺度的实例。
更重的头部。更重的头部对于以多任务方式训练的边界框的box AP（APbbM）非常有效。而对于掩码AP和独立训练的目标检测器，改进则较小。

在PANet中，结合所有这些组件，掩码AP相较于基线提升了4.4。独立训练的目标检测器的边界框AP（APbb）提升了4.2。这些提升是显著的，其中中小尺寸的实例贡献最大。一半的提升来自于多尺度训练和多GPU同步的批量归一化（BN）。这些都是有效的策略。

自适应特征池化的消融研究旨在验证融合操作的类型和位置。我们将其放置在ROIAlign和fc1之间，表示为“fu.fc1fc2”，或放置在fc1和fc2之间，表示为“fc1fu.fc2”，如表4所示。这些设置也应用于掩码预测分支。对于特征融合类型，测试了最大和求和操作。

在这里插入图片描述

表4. 在val-2017数据集上对自适应特征池化进行消融研究，结果以独立训练的目标检测器的掩码AP和框AP（APbb）表示。

如表4所示，自适应特征池化对融合操作类型并不敏感。然而，允许参数层适应来自不同层次的特征网格更为重要。在我们的最终系统中，我们在第一个参数层后使用最大融合操作。

全连接融合的消融研究我们研究了在不同情况下实例化增强的全连接分支时的性能表现。我们主要考虑两个方面，即新分支的起始层以及新分支与全卷积网络（FCN）预测结果的融合方式。我们分别从conv2、conv3和conv4层创建新路径进行实验，并使用“最大值”、“求和”和“乘积”操作进行融合。我们以重新实现的带有自底向上路径增强和自适应特征池化的Mask R-CNN作为基线。相应的结果列在表5中，这些结果清楚地表明，从conv3层开始并使用求和操作进行融合能够产生最佳效果。

在这里插入图片描述

我们使用PANet参加了COCO 2017实例分割和物体检测挑战赛。在没有进行大批量训练的情况下，我们的框架在实例分割任务中获得了第一名，在物体检测任务中获得了第二名。如表6和表7所示，与去年的冠军相比，我们在实例分割上实现了9.1%的绝对提升和24%的相对提升。而在物体检测方面，我们取得了9.4%的绝对提升和23%的相对提升。

在这里插入图片描述

在这里插入图片描述
为了实现最佳性能，还有一些细节需要注意。首先，我们采用了可变形卷积（DCN）[11]。同时，也使用了常见的测试技巧[23, 33, 10, 15, 39, 62]，如多尺度测试、水平翻转测试、掩码投票和框投票等。在多尺度测试中，我们将长边设置为1,400，另一边的范围从600到1,200，步长为200，仅使用4个尺度。其次，我们使用了公开可用的更大初始模型。我们使用了3个ResNeXt-101 (64 × 4d) [61]、2个SE-ResNeXt-101 (32 × 4d) [25]、1个ResNet-269 [64]和1个SENet [25]作为集成模型，用于生成边界框和掩码。使用不同更大初始模型的性能相似。我们使用一个ResNeXt-101 (64 × 4d)作为基础模型来生成候选区域。我们使用不同的随机种子训练这些模型，有和没有平衡采样[55]，以增强模型之间的多样性。检测结果通过收紧实例掩码获得。我们在图5中展示了一些可视化结果——大多数预测都具有高质量。

4.3 Cityscapes上的实验

Cityscapes [7] 数据集包含由车载摄像头捕捉的街景图像。其中包含2,975张训练图像、500张验证图像和1,525张测试图像，这些图像均带有精细标注。另有20,000张图像带有粗略标注，不用于训练。我们在验证集和秘密测试子集上报告了结果。8个语义类别带有实例掩码标注。每张图像的尺寸为1024 × 2048。我们使用AP和AP50指标评估结果。

超参数为了公平比较，我们使用与Mask R-CNN [21]相同的超参数集。具体来说，训练时我们使用短边随机从{800, 1024}中采样的图像，推理时使用短边为1024的图像。未使用任何测试技巧或DCN。我们以0.01的学习率训练模型18k次迭代，再以0.001的学习率训练6k次迭代。每个图像批次包含8张图像（每GPU一张图像）。在该数据集上，我们以ResNet-50作为初始模型。

结果与消融研究我们在表8中与测试子集上的最新技术进行了比较。在“仅精细”数据上训练时，我们的方法比使用“仅精细”数据的Mask R-CNN高出5.6个点。甚至与在COCO上预训练的Mask R-CNN相当。通过在COCO上预训练，我们在相同设置下比Mask R-CNN高出4.4个点。可视化结果如图5所示。

在这里插入图片描述

我们在验证集子集上的消融研究结果如表9所示。基于我们重新实现的基线模型，我们添加了多GPU同步批归一化以帮助网络更好地收敛。这使得准确率提高了1.5个百分点。使用完整的PANet后，性能进一步提升了1.9个百分点。

在这里插入图片描述

4.4 MVD上的实验

MVD [45] 是一个相对较新的大规模实例分割数据集。它提供了25,000张街景图像，包含37个语义类别的精细实例级标注。这些图像使用不同设备在多个国家拍摄，内容和分辨率差异很大。我们在训练子集上以ResNet-50为初始模型进行训练，并在验证和秘密测试子集上以AP和AP50为指标报告性能。我们在表10中展示了我们的结果。与UCenter [40]——LSUN 2017实例分割挑战赛该数据集的冠军相比，我们的PANet在单尺度图像上测试时，仅使用一个ResNet50，其表现已经与在COCO上预训练的集成结果相当。通过多尺度和水平翻转测试（UCenter也采用了这些方法），我们的方法表现更优。定性结果如图5所示。

在这里插入图片描述

5.结论

我们提出了用于实例分割的PANet。我们设计了多个简单而有效的组件，以增强代表性管道中的信息传播。我们从所有特征层级中池化特征，并缩短了底层和顶层特征层级之间的距离，以实现可靠的信息传递。我们还增强了互补路径，以丰富每个提案的特征。实验结果表明，该方法取得了令人印象深刻的效果。未来的工作将把我们的方法扩展到视频和RGBD数据。

6.引用文献

[1] P. Arbela ́ez, J. Pont-Tuset, J. Barron, F. Marques, and J. Malik. Multiscale combinatorial grouping. In CVPR, 2014. 2
[2] A. Arnab and P. H. Torr. Pixelwise instance segmentation with a dynamically instantiated network. In CVPR, 2017. 2
[3] M. Bai and R. Urtasun. Deep watershed transform for instance segmentation. In CVPR, 2017. 1, 2
[4] S. Bell, C. L. Zitnick, K. Bala, and R. B. Girshick. Insideoutside net: Detecting objects in context with skip pooling and recurrent neural networks. In CVPR, 2016. 2, 4
[5] Z. Cai, Q. Fan, R. S. Feris, and N. Vasconcelos. A unified multi-scale deep convolutional neural network for fast object detection. In ECCV, 2016. 1, 2
[6] Y. Chen, J. Li, H. Xiao, X. Jin, S. Yan, and J. Feng. Dual path networks. arXiv:1707.01629, 2017. 1
[7] M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Benenson, U. Franke, S. Roth, and B. Schiele. The cityscapes dataset for semantic urban scene understanding. In CVPR, 2016. 1, 5, 7
[8] J. Dai, K. He, Y. Li, S. Ren, and J. Sun. Instance-sensitive fully convolutional networks. In ECCV, 2016. 2, 4
[9] J. Dai, K. He, and J. Sun. Convolutional feature masking for joint object and stuff segmentation. In CVPR, 2015. 2
[10] J. Dai, K. He, and J. Sun. Instance-aware semantic segmentation via multi-task network cascades. CVPR, 2016. 2, 4, 5, 7
[11] J. Dai, H. Qi, Y. Xiong, Y. Li, G. Zhang, H. Hu, and Y. Wei. Deformable convolutional networks. In ICCV, 2017. 7
[12] M. Everingham, L. Van Gool, C. K. Williams, J. Winn, and A. Zisserman. The pascal visual object classes (VOC) challenge. IJCV, 2010. 1
[13] C. Fu, W. Liu, A. Ranga, A. Tyagi, and A. C. Berg. DSSD : Deconvolutional single shot detector. arXiv:1701.06659, 2017. 1, 2
[14] G. Ghiasi and C. C. Fowlkes. Laplacian reconstruction and refinement for semantic segmentation. In ECCV, 2016. 1, 2
[15] S. Gidaris and N. Komodakis. Object detection via a multiregion and semantic segmentation-aware CNN model. In ICCV, 2015. 3, 5, 7
[16] R. Girshick. Fast R-CNN. In ICCV, 2015. 1, 2, 5
[17] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In CVPR, 2014. 2
[18] B. Hariharan, P. Arbela ́ez, R. Girshick, and J. Malik. Simultaneous detection and segmentation. In ECCV. 2014. 2
[19] B. Hariharan, P. Arbela ́ez, R. Girshick, and J. Malik. Hypercolumns for object segmentation and fine-grained localization. In CVPR, 2015. 2
[20] Z. Hayder, X. He, and M. Salzmann. Boundary-aware instance segmentation. In CVPR, 2017. 2
[21] K. He, G. Gkioxari, P. Doll ́ar, and R. B. Girshick. Mask R-CNN. In ICCV, 2017. 1, 2, 4, 5, 6, 7, 8
[22] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition. PAMI, 2015. 2 [23] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In CVPR, 2016. 1, 2, 3, 5, 6, 7
[24] K. He, X. Zhang, S. Ren, and J. Sun. Identity mappings in deep residual networks. In ECCV, 2016. 1
[25] J. Hu, L. Shen, and G. Sun. Squeeze-and-excitation networks. arXiv:1709.01507, 2017. 7
[26] G. Huang, Z. Liu, and K. Q. Weinberger. Densely connected convolutional networks. In CVPR, 2017. 1
[27] J. Huang, V. Rathod, C. Sun, M. Zhu, A. Korattikara, A. Fathi, I. Fischer, Z. Wojna, Y. Song, S. Guadarrama, and K. Murphy. Speed/accuracy trade-offs for modern convolutional object detectors. In CVPR, 2017. 2, 6, 7
[28] S. Ioffe and C. Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. In ICML, 2015. 5
[29] Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick, S. Guadarrama, and T. Darrell. Caffe: Convolutional architecture for fast feature embedding. In MM, 2014. 5
[30] A. Kirillov, E. Levinkov, B. Andres, B. Savchynskyy, and C. Rother. Instancecut: From edges to instances with multicut. In CVPR, 2017. 2
[31] T. Kong, A. Yao, Y. Chen, and F. Sun. Hypernet: Towards accurate region proposal generation and joint object detection. In CVPR, 2016. 1, 2, 4
[32] A. Krizhevsky, I. Sutskever, and G. E. Hinton. ImageNet classification with deep convolutional neural networks. In NIPS, 2012. 3
[33] Y. Li, H. Qi, J. Dai, X. Ji, and Y. Wei. Fully convolutional instance-aware semantic segmentation. In CVPR, 2017. 1, 2, 4, 5, 7
[34] X. Liang, Y. Wei, X. Shen, Z. Jie, J. Feng, L. Lin, and S. Yan. Reversible recursive instance-level object segmentation. In CVPR, 2016. 2, 4
[35] T. Lin, P. Dolla ́r, R. B. Girshick, K. He, B. Hariharan, and S. J. Belongie. Feature pyramid networks for object detection. In CVPR, 2017. 1, 2, 3, 5, 6
[36] T.-Y. Lin, P. Goyal, R. Girshick, K. He, and P. Dollar. Focal loss for dense object detection. In ICCV, 2017. 6 [37] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dolla ́r, and C. L. Zitnick. Microsoft COCO: Common objects in context. In ECCV. 2014. 1, 5
[38] S. Liu, J. Jia, S. Fidler, and R. Urtasun. SGN: Sequential grouping networks for instance segmentation. In ICCV, 2017. 1, 2, 8
[39] S. Liu, C. Lu, and J. Jia. Box aggregation for proposal decimation: Last mile of object detection. In ICCV, 2015. 5, 7
[40] S. Liu, L. Qi, H. Qin, J. Shi, and J. Jia. LSUN’17: insatnce segmentation task, UCenter winner team. https://research.mapillary.com/img/lsun/ lsun17_scene_parsing_winners.pptx, 2017. 8
[41] S. Liu, X. Qi, J. Shi, H. Zhang, and J. Jia. Multi-scale patch aggregation (MPA) for simultaneous detection and segmentation. CVPR, 2016. 2, 4
[42] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. E. Reed, C. Fu, and A. C. Berg. SSD: single shot multibox detector. In ECCV, 2016. 1, 2
[43] W. Liu, A. Rabinovich, and A. C. Berg. Parsenet: Looking wider to see better. arXiv:1506.04579, 2015. 3
[44] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In CVPR, 2015. 1, 2
[45] G. Neuhold, T. Ollmann, S. Rota Bulo, and P. Kontschieder. The mapillary vistas dataset for semantic understanding of street scenes. In ICCV, 2017. 1, 5, 8
[46] H. Noh, S. Hong, and B. Han. Learning deconvolution network for semantic segmentation. In ICCV, 2015. 1, 2
[47] C. Peng, X. Zhang, G. Yu, G. Luo, and J. Sun. Large kernel matters - improve semantic segmentation by global convolutional network. In CVPR, 2017. 2, 3
[48] P. H. O. Pinheiro, R. Collobert, and P. Dolla ́r. Learning to segment object candidates. In NIPS, 2015. 2, 4
[49] P. H. O. Pinheiro, T. Lin, R. Collobert, and P. Doll ́ar. Learning to refine object segments. In ECCV, 2016. 2, 4
[50] M. Ren and R. S. Zemel. End-to-end instance segmentation with recurrent attention. In CVPR, 2017. 2
[51] S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. In NIPS, 2015. 1, 2, 5
[52] S. Ren, K. He, R. B. Girshick, X. Zhang, and J. Sun. Object detection networks on convolutional feature maps. PAMI, 2017. 3, 4
[53] B. Romera-Paredes and P. H. S. Torr. Recurrent instance segmentation. In ECCV, 2016. 2
[54] O. Ronneberger, P. Fischer, and T. Brox. U-Net: Convolutional networks for biomedical image segmentation. In MICCAI, 2015. 2
[55] L. Shen, Z. Lin, and Q. Huang. Relay backpropagation for effective learning of deep convolutional neural networks. In ECCV, 2016. 7
[56] A. Shrivastava, R. Sukthankar, J. Malik, and A. Gupta. Beyond skip connections: Top-down modulation for object detection. arXiv:1612.06851, 2016. 2
[57] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. In ICLR, 2014. 3
[58] C. Szegedy, S. Ioffe, V. Vanhoucke, and A. A. Alemi. Inception-v4, inception-resnet and the impact of residual connections on learning. In AAAI, 2017. 2
[59] J. Uhrig, M. Cordts, U. Franke, and T. Brox. Pixel-level encoding and depth layering for instance-level semantic labeling. In GCPR, 2016. 2
[60] J. R. Uijlings, K. E. van de Sande, T. Gevers, and A. W. Smeulders. Selective search for object recognition. IJCV, 2013. 2
[61] S. Xie, R. B. Girshick, P. Doll ́ar, Z. Tu, and K. He. Aggregated residual transformations for deep neural networks. In CVPR, 2017. 1, 5, 7
[62] S. Zagoruyko, A. Lerer, T. Lin, P. H. O. Pinheiro, S. Gross, S. Chintala, and P. Dolla ́r. A multipath network for object detection. In BMVC, 2016. 2, 3, 4, 5, 7
[63] M. D. Zeiler and R. Fergus. Visualizing and understanding convolutional networks. In ECCV. 2014. 3
[64] X. Zeng, W. Ouyang, J. Yan, H. Li, T. Xiao, K. Wang, Y. Liu, Y. Zhou, B. Yang, Z. Wang, H. Zhou, and X. Wang. Crafting GBD-Net for object detection. arXiv:1610.02579, 2016. 3, 7
[65] Z. Zhang, S. Fidler, and R. Urtasun. Instance-level segmentation for autonomous driving with deep densely connected MRFs. In CVPR, 2016. 2
[66] Z. Zhang, A. G. Schwing, S. Fidler, and R. Urtasun. Monocular object instance segmentation and depth ordering with CNNs. In ICCV, 2015. 2
[67] H. Zhao, J. Shi, X. Qi, X. Wang, and J. Jia. Pyramid scene parsing network. In CVPR, 2017. 3, 5
[68] C. L. Zitnick and P. Doll ́ar. Edge boxes: Locating object proposals from edges. In ECCV, 2014. 2