当前位置：首页 > article >正文

深度学习笔记（10）——卷积神经网络

article 2025/2/28 15:58:01

卷积神经网络

回顾：

线性分类器 $f (x, W) = W x + b$
损失函数和优化 $L(W,b)=\frac{1}{N}\sum_{i=1}^{N}L_i+R(W)$
优化模型来降低模型在数据上的损失:SGD,SGD+Momentum,RMSProp,Adam
计算图加反向传播

方向梯度直方图:0~180°,每20°一个间隔,共九个数。
词袋:提取随机图像块,聚类图像块,形成“visual words”的codebook
在这里插入图片描述

卷积神经网络

全连接层(参数量,优化,空间信息):参数量多,空间信息损失

卷积层:滤波器的深度始终与输入的深度相同
将滤波器与图像卷积，即"在图像上空间滑动，计算点积"

GPU适合并行运算,卷积神经网络适合并行运算。

在采用batch的时候,每个batch里的图尺寸必须一样

卷积输出的空间尺寸:(N+2P-F)/S+1,N是输入尺寸,P是padding的大小,F是滤波器尺寸,S是步长(必须要理解这个公式),N+2P为padding之后的尺寸宽。
为了保持输出的空间尺寸大小,conv层的步幅为1,滤波器大小为F*F,零填充为(F-1)/2(这边需要取整)

对于大图像，我们需要使用很多卷积层，才能"看到"整个图像
解决方案:

大步长
池化层

池化层:使特征更小,更易于处理,独立操作每个激活图,池化没有可学习参数,引入空间不变性,且池化一般不用padding。

对于stride=1,每次连续的卷积都会使感受野大小增加(K-1),对于L层,感受野大小为1+L*(K-1),此处注意区分在前一层上的感受野和在输入图像上的感受野。
对于核大小为K的卷积，输出中的每个元素都取决于输入中的K*K感受野。
注意要区分:在前一层上的感受野和在输入图像上的感受野
感受野计算公式: $R_n=R_{n-1}+[(F_n-1)\times \prod_{i=1}^{n-1} s_i]$
感受野中心为: $start_l=start_{l-1}+(\frac{k-1}{2}-p_l)\times j_{l-1},j_l=\prod_{i=1}^{n-1}s_i$

批归一化层

以下输入会导致网络难以优化:
输入不以零为中心(有较大的偏置)
输入的每个元素具有不同的缩放比例
解决方案:对输入进行缩放(归一化)
$x_{i,j}=\frac{x_{i,j}-\mu_j}{\sqrt{\sigma_j^2+\epsilon}},y_{i,j}=\gamma_jx_{i,j}+\beta_j$ ,
$\mu_j$ 是第j个通道的均值, $\sigma_j^2$ 是第j个通道的方差, $\epsilon$ 是防止除0的常数, $\gamma_j$ 和 $\beta_j$ 是可学习的参数, $\gamma_j$ 是缩放因子, $\beta_j$ 是偏移因子,这两个参数的加入是因为归一化后的输入丢失了大量数据信息(均值、方差)。

在这里插入图片描述

批归一化层的作用:

使深度网络更容易训练
改善梯度流
允许更高的学习率,更快的收敛
网络对初始化变得更加稳健
在训练过程中起到正则化的作用

注意：训练时从数据集中学习，测试时候使用训练得到的参数

经典卷积网络架构

AlexNet

卷积,池化,BN,卷积,池化,BN,卷积,卷积,卷积,池化,全连接
首次使用ReLU,大量使用数据增强,dropout, batch_size 128 ,SGD+Momentum 0.9,L2 weight decay 5e-4
在这里插入图片描述

ZFNet

在AlexNet的基础上进行超参数优化

VGG

更小的滤波器,更深的网络,只使用 $3\times3$ 的滤波器,和 $2\times2$ 的Max Pooling,突出网络深度的重要性
为什么只使用 $3\times3$ 的滤波器:多个 $3\times3$ 相对一个 $7\times7$ 的Conv,相同的感受野,更少的参数量,更深、更多的非线性变化
在这里插入图片描述