当前位置：首页 > article >正文

CNN-day9-经典神经网络ResNet

article 2025/2/10 22:59:30

day10-经典神经网络ResNet

1 梯度消失问题

深层网络有个梯度消失问题：模型变深时，其错误率反而会提升，该问题非过拟合引起，主要是因为梯度消失而导致参数难以学习和更新。

2 网络创新

2015年何凯明等人提出deep residual network。在加入残存后，不能保证效果变好，但不会变差。

3 Residual结构

Residual结构是残差结构，在文章中给了两种不同的残差结构，

在ResNet-18和ResNet-34中，用的如下图中左侧图的结构，

在ResNet-50、ResNet-101和ResNet-152中，用的是下图中右侧图的结构。

右图：

1x1：通道之间进行特征融合，降维，降低参数量

3x3：特征提取

1x1：升维，和原始输入数据进行相加，形状要保持一致。特征提取。

左图可看到输入特征的channels是64，经过一个3x3的卷积核卷积之后，进行Relu激活，再经过一个3x3的卷积核进行卷积，但并没有直接激活。并且可以看到，在主分支上有一个圆弧的线从输入特征矩阵直接到加号，这个圆弧线是shortcut（捷径分支），它直接将输入特征矩阵加到经过第二次3x3的卷积核卷积之后的输出特征矩阵，再经过Relu激活函数进行激活。

右侧图输入特征的channels是256，要先经过一个1x1的卷积，降维到64，然后用3x3的卷积进行特征提取，并通过1x1的卷积进行升维到256，之后和shortcut的输入矩阵进行对应维度加法运算，在相加之后，再经过Relu激活。