CNN-day9-经典神经网络ResNet
day10-经典神经网络ResNet
1 梯度消失问题
深层网络有个梯度消失问题:模型变深时,其错误率反而会提升,该问题非过拟合引起,主要是因为梯度消失而导致参数难以学习和更新。
2 网络创新
2015年何凯明等人提出deep residual network。在加入残存后,不能保证效果变好,但不会变差。
3 Residual结构
Residual结构是残差结构,在文章中给了两种不同的残差结构,
在ResNet-18和ResNet-34中,用的如下图中左侧图的结构,
在ResNet-50、ResNet-101和ResNet-152中,用的是下图中右侧图的结构。
右图:
1x1:通道之间进行特征融合,降维,降低参数量
3x3:特征提取
1x1:升维,和原始输入数据进行相加,形状要保持一致。特征提取。
左图可看到输入特征的channels是64,经过一个3x3的卷积核卷积之后,进行Relu激活,再经过一个3x3的卷积核进行卷积,但并没有直接激活。并且可以看到,在主分支上有一个圆弧的线从输入特征矩阵直接到加号,这个圆弧线是shortcut(捷径分支),它直接将输入特征矩阵加到经过第二次3x3的卷积核卷积之后的输出特征矩阵,再经过Relu激活函数进行激活。
右侧图输入特征的channels是256,要先经过一个1x1的卷积,降维到64,然后用3x3的卷积进行特征提取,并通过1x1的卷积进行升维到256,之后和shortcut的输入矩阵进行对应维度加法运算,在相加之后,再经过Relu激活。
4 网络结构
5 性能
通过使用残差连接,使得更深的网络具有更低的错误率。
6 变换策略影响
不同尺度的特征相加时,采用不同的维度变换策略。
三种变换策略:
(A):在升维时使用补零
(B):在升维时使用1x1卷积进行映射
(C):所有残差连接使用1x1卷积进行映射