Feature Pyramid Networks for Object Detection(2017.4)
文章目录
- Abstract
- 1. Introduction
- 3. Feature Pyramid Networks
- Bottom-up pathway
- Top-down pathway and lateral connections
- 7. Conclusion
FPN
Abstract
特征金字塔是识别系统中检测不同尺度物体的基本组成部分。但最近的深度学习对象检测器避免了金字塔表示,部分原因是它们需要大量的计算和内存
在本文中,我们利用深度卷积网络固有的多尺度、金字塔层次结构来构造具有边际额外成本的特征金字塔。提出了一种具有横向连接的自顶向下体系结构,用于构建各种尺度的高级语义特征图。这种结构被称为特征金字塔网络(FPN),作为一种通用的特征提取器在一些应用中表现出了显著的改进
在基本的Faster R-CNN系统中使用FPN,我们的方法在COCO检测基准上实现了最先进的单模型结果,没有任何花哨的东西,超过了所有现有的单模型作品,包括COCO 2016挑战赛的获胜者。此外,我们的方法可以在GPU上以6 FPS的速度运行,因此是一种实用而准确的多尺度目标检测方案
1. Introduction
(a)利用图像金字塔构建特征金字塔。特征是在每个图像尺度上独立计算的,速度很慢。(b)最近的检测系统选择只使用单一尺度特征,以便更快地进行检测。©另一种方法是将卷积神经网络计算出的金字塔状特征层次当作特征图像金字塔来重用。(d)我们提出的特征金字塔网络(FPN)与(b)和©一样快,但更准确。在该图中,特征映射用蓝色轮廓表示,较粗的轮廓表示语义较强的特征
重用特征层次结构的高分辨率映射对于探测小物体很重要
本文的目标是自然地利用卷积神经网络特征层次的金字塔形状,同时创建一个在所有尺度上都具有强语义的特征金字塔。为了实现这一目标,我们依赖于一种架构,该架构通过自上而下的途径和横向连接将低分辨率、语义强的特征与高分辨率、语义弱的特征结合起来(图1(d))。结果是一个特征金字塔,在所有级别上都具有丰富的语义,并且可以从单个输入图像规模快速构建。换句话说,我们展示了如何在不牺牲表征能力、速度或内存的情况下创建可用于替换特征图像金字塔的网络内特征金字塔
Top:具有跳过连接的自顶向下架构,其中在最精细的级别(例如[28])上进行预测。下图:我们的模型有一个类似的结构,但利用它作为一个特征金字塔,在所有层次上独立做出预测
我们的金字塔结构可以在所有尺度上进行端到端训练,并且在训练/测试时一致使用,这对于图像金字塔来说是不可行的
3. Feature Pyramid Networks
我们的目标是利用卷积神经网络的金字塔特征层次结构,该结构具有从低到高的语义,并构建一个具有高级语义的特征金字塔
Bottom-up pathway
自底向上路径是骨干卷积神经网络的前馈计算,计算由多个尺度的特征映射组成的特征层次,尺度步长为2。通常有许多层产生相同大小的输出图,我们说这些层处于相同的网络阶段。对于我们的特征金字塔,我们为每个阶段定义一个金字塔级别。我们选择每个阶段最后一层的输出作为特征映射的参考集,我们将对其进行丰富以创建我们的金字塔。这种选择是很自然的,因为每个阶段的最深层应该拥有最强大的功能
Top-down pathway and lateral connections
自上而下的路径通过上采样空间上更粗糙,但语义上更强的更高金字塔层次的特征图,产生更高分辨率的特征。然后,这些特征通过横向连接通过自下而上通路的特征得到增强。每个横向连接合并了自底向上路径和自顶向下路径的相同空间大小的特征图。自底向上的特征映射具有较低级的语义,但它的激活定位更准确,因为它的次采样次数更少
图3显示了构建自顶向下特征映射的构建块。对于较粗分辨率的特征图,我们将空间分辨率上采样2倍(为了简单起见,使用最近邻上采样
通过元素加法将上采样映射与相应的自下而上映射合并(自下而上映射经过1×1卷积层以减少通道维度)
7. Conclusion
我们已经提出了一个清晰和简单的框架,用于在ConvNets中构建特征金字塔。我们的方法在几个强基线和竞赛获胜者的基础上显示出显著的改进。从而在不需要计算图像金字塔的情况下,为特征金字塔的研究和应用提供了一种实用的解决方案
最后,我们的研究表明,尽管深度卷积神经网络具有强大的表征能力和对尺度变化的隐式鲁棒性,但使用金字塔表示明确地解决多尺度问题仍然至关重要