当前位置: 首页 > article >正文

吴恩达深度学习——卷积神经网络实例分析

内容来自https://www.bilibili.com/video/BV1FT4y1E74V,仅为本人学习所用。

文章目录

  • LeNet-5
  • AlexNet
  • VGG-16
  • ResNets
    • 残差块
  • 1*1卷积

LeNet-5

在这里插入图片描述

  • 输入层:输入为一张尺寸是 32 × 32 × 1 32×32×1 32×32×1的图像,其中 32 × 32 32×32 32×32是图像的长和宽, 1 1 1表示通道数。
  • 第一层卷积
    • 卷积核参数:卷积核大小为 5 × 5 5×5 5×5,步长 s = 1 s = 1 s=1,卷积核数量 n c = 6 n_c = 6 nc=6
    • 输出尺寸计算:根据公式 n H = ⌊ n H i n − f + 1 s ⌋ n_H=\lfloor\frac{n_{H_{in}} - f + 1}{s}\rfloor nH=snHinf+1 n W = ⌊ n W i n − f + 1 s ⌋ n_W=\lfloor\frac{n_{W_{in}} - f + 1}{s}\rfloor nW=snWinf+1 n H i n n_{H_{in}} nHin n W i n n_{W_{in}} nWin为输入特征图的高和宽, f f f为卷积核尺寸, s s s为步长),这里 n H i n = n W i n = 32 n_{H_{in}}=n_{W_{in}} = 32 nHin=nWin=32 f = 5 f = 5 f=5 s = 1 s = 1 s=1,则 n H = ⌊ 32 − 5 + 1 1 ⌋ = 28 n_H=\lfloor\frac{32 - 5 + 1}{1}\rfloor = 28 nH=1325+1=28 n W = ⌊ 32 − 5 + 1 1 ⌋ = 28 n_W=\lfloor\frac{32 - 5 + 1}{1}\rfloor = 28 nW=1325+1=28。所以输出特征图尺寸为 28 × 28 × 6 28×28×6 28×28×6
  • 第一层平均池化
    • 池化核参数:池化核大小 f = 2 f = 2 f=2,步长 s = 2 s = 2 s=2
    • 输出尺寸计算 n H = ⌊ 28 − 2 + 1 2 ⌋ = 14 n_H=\lfloor\frac{28 - 2 + 1}{2}\rfloor = 14 nH=2282+1=14 n W = ⌊ 28 − 2 + 1 2 ⌋ = 14 n_W=\lfloor\frac{28 - 2 + 1}{2}\rfloor = 14 nW=2282+1=14。输出特征图尺寸为 14 × 14 × 6 14×14×6 14×14×6
  • 第二层卷积
    • 卷积核参数:卷积核大小为 5 × 5 5×5 5×5,步长 s = 1 s = 1 s=1,卷积核数量 n c = 16 n_c = 16 nc=16
    • 输出尺寸计算 n H = ⌊ 14 − 5 + 1 1 ⌋ = 10 n_H=\lfloor\frac{14 - 5 + 1}{1}\rfloor = 10 nH=1145+1=10 n W = ⌊ 14 − 5 + 1 1 ⌋ = 10 n_W=\lfloor\frac{14 - 5 + 1}{1}\rfloor = 10 nW=1145+1=10。输出特征图尺寸为 10 × 10 × 16 10×10×16 10×10×16
  • 第二层平均池化
    • 池化核参数:池化核大小 f = 2 f = 2 f=2,步长 s = 2 s = 2 s=2
    • 输出尺寸计算 n H = ⌊ 10 − 2 + 1 2 ⌋ = 5 n_H=\lfloor\frac{10 - 2 + 1}{2}\rfloor = 5 nH=2102+1=5 n W = ⌊ 10 − 2 + 1 2 ⌋ = 5 n_W=\lfloor\frac{10 - 2 + 1}{2}\rfloor = 5 nW=2102+1=5。输出特征图尺寸为 5 × 5 × 16 5×5×16 5×5×16,将其展平后神经元数量为 5 × 5 × 16 = 400 5×5×16 = 400 5×5×16=400
  • 全连接层
    • 第一个全连接层有 120 120 120个神经元,连接展平后的 400 400 400个神经元。
    • 第二个全连接层有 84 84 84个神经元,连接第一个全连接层的 120 120 120个神经元。
  • 输出层:通过Softmax函数输出 10 10 10个类别的概率分布,用于分类任务。

AlexNet

在这里插入图片描述

  • 输入层:输入图像尺寸为 227 × 227 × 3 227×227×3 227×227×3,其中 227 × 227 227×227 227×227是图像的长和宽, 3 3 3表示通道数。
  • 第一层卷积
    • 卷积核:卷积核大小为 11 × 11 11×11 11×11,步长 s = 4 s = 4 s=4,卷积核数量 n c = 96 n_c = 96 nc=96
    • 输出尺寸:根据公式 n H = ⌊ n H i n − f + 1 s ⌋ n_H=\lfloor\frac{n_{H_{in}} - f + 1}{s}\rfloor nH=snHinf+1 n W = ⌊ n W i n − f + 1 s ⌋ n_W=\lfloor\frac{n_{W_{in}} - f + 1}{s}\rfloor nW=snWinf+1 n H i n n_{H_{in}} nHin n W i n n_{W_{in}} nWin为输入特征图的高和宽, f f f为卷积核尺寸, s s s为步长),可得 n H = ⌊ 227 − 11 + 1 4 ⌋ = 55 n_H=\lfloor\frac{227 - 11 + 1}{4}\rfloor = 55 nH=422711+1=55 n W = ⌊ 227 − 11 + 1 4 ⌋ = 55 n_W=\lfloor\frac{227 - 11 + 1}{4}\rfloor = 55 nW=422711+1=55。所以输出特征图尺寸为 55 × 55 × 96 55×55×96 55×55×96
  • 第一层最大池化
    • 池化核:池化核大小为 3 × 3 3×3 3×3,步长 s = 2 s = 2 s=2
    • 输出尺寸 n H = ⌊ 55 − 3 + 1 2 ⌋ = 27 n_H=\lfloor\frac{55 - 3 + 1}{2}\rfloor = 27 nH=2553+1=27 n W = ⌊ 55 − 3 + 1 2 ⌋ = 27 n_W=\lfloor\frac{55 - 3 + 1}{2}\rfloor = 27 nW=2553+1=27。输出特征图尺寸为 27 × 27 × 96 27×27×96 27×27×96
  • 第二层卷积:
    • 卷积核:卷积核大小为 5 × 5 5×5 5×5,填充 p p p为“same”(保证输出尺寸与输入相同),卷积核数量 n c = 256 n_c = 256 nc=256
    • 输出尺寸:当使用“same”填充时,输出尺寸与输入相同,即 27 × 27 × 256 27×27×256 27×27×256
  • 第二层最大池化
    • 池化核:池化核大小为 3 × 3 3×3 3×3,步长 s = 2 s = 2 s=2
    • 输出尺寸 n H = ⌊ 27 − 3 + 1 2 ⌋ = 13 n_H=\lfloor\frac{27 - 3 + 1}{2}\rfloor = 13 nH=2273+1=13 n W = ⌊ 27 − 3 + 1 2 ⌋ = 13 n_W=\lfloor\frac{27 - 3 + 1}{2}\rfloor = 13 nW=2273+1=13。输出特征图尺寸为 13 × 13 × 256 13×13×256 13×13×256
  • 第三 - 五层卷积
    这三层卷积核大小均为 3 × 3 3×3 3×3,填充均为“same”,卷积核数量分别为 384 384 384 384 384 384 256 256 256。每层输出特征图尺寸均保持为 13 × 13 × 13×13× 13×13×相应通道数。
  • 第三层最大池化
    • 池化核:池化核大小为 3 × 3 3×3 3×3,步长 s = 2 s = 2 s=2
    • 输出尺寸 n H = ⌊ 13 − 3 + 1 2 ⌋ = 6 n_H=\lfloor\frac{13 - 3 + 1}{2}\rfloor = 6 nH=2133+1=6 n W = ⌊ 13 − 3 + 1 2 ⌋ = 6 n_W=\lfloor\frac{13 - 3 + 1}{2}\rfloor = 6 nW=2133+1=6。输出特征图尺寸为 6 × 6 × 256 6×6×256 6×6×256
  • 全连接层
    • 展平 6 × 6 × 256 6×6×256 6×6×256的特征图,得到 6 × 6 × 256 = 9216 6×6×256 = 9216 6×6×256=9216个神经元,连接到第一个全连接层( 9216 9216 9216个神经元)。
    • 第一个全连接层连接到第二个全连接层( 4096 4096 4096个神经元),第二个全连接层再连接到第三个全连接层( 4096 4096 4096个神经元)。
  • 输出层:第三个全连接层连接到输出层,通过Softmax函数输出 1000 1000 1000个类别的概率分布。

AlexNet 与 LeNet - 5 结构类似但规模更大,使用了 ReLU 激活函数。

VGG-16

在这里插入图片描述

  • 输入层:输入是尺寸为 224 × 224 × 3 224×224×3 224×224×3的图像,其中 224 × 224 224×224 224×224是图像的空间尺寸, 3 3 3表示通道数。
  • 卷积层与池化层
    • 第一组:使用 2 2 2 3 × 3 3×3 3×3、步长为 1 1 1、填充为“same”的卷积核,卷积核数量分别为 64 64 64,输出特征图尺寸为 224 × 224 × 64 224×224×64 224×224×64;接着是最大池化层,池化窗口 2 × 2 2×2 2×2、步长为 2 2 2,输出 112 × 112 × 64 112×112×64 112×112×64的特征图。
    • 第二组 2 2 2 3 × 3 3×3 3×3、步长为 1 1 1、填充为“same”的卷积核,卷积核数量为 128 128 128,输出 112 × 112 × 128 112×112×128 112×112×128的特征图;再经最大池化( 2 × 2 2×2 2×2,步长 2 2 2),输出 56 × 56 × 128 56×56×128 56×56×128的特征图。
    • 第三组 3 3 3 3 × 3 3×3 3×3、步长为 1 1 1、填充为“same”的卷积核,卷积核数量为 256 256 256,输出 56 × 56 × 256 56×56×256 56×56×256的特征图;经最大池化( 2 × 2 2×2 2×2,步长 2 2 2),输出 28 × 28 × 256 28×28×256 28×28×256的特征图。
    • 第四组 3 3 3 3 × 3 3×3 3×3、步长为 1 1 1、填充为“same”的卷积核,卷积核数量为 512 512 512,输出 28 × 28 × 512 28×28×512 28×28×512的特征图;经最大池化( 2 × 2 2×2 2×2,步长 2 2 2),输出 14 × 14 × 512 14×14×512 14×14×512的特征图。
    • 第五组 3 3 3 3 × 3 3×3 3×3、步长为 1 1 1、填充为“same”的卷积核,卷积核数量为 512 512 512,输出 14 × 14 × 512 14×14×512 14×14×512的特征图;经最大池化( 2 × 2 2×2 2×2,步长 2 2 2),输出 7 × 7 × 512 7×7×512 7×7×512的特征图。
  • 全连接层
    • 展平 7 × 7 × 512 7×7×512 7×7×512的特征图后连接到第一个全连接层,有 4096 4096 4096个神经元。
    • 第一个全连接层连接到第二个全连接层,同样有 4096 4096 4096个神经元。
  • 输出层:通过Softmax函数输出 1000 1000 1000个类别的概率分布。

VGG - 16结构简洁,通过堆叠多个小尺寸卷积核来加深网络。

ResNets

传统神经网络在加深层数时可能会出现梯度消失或梯度爆炸,以及性能退化(训练误差和测试误差增加)等问题。看看如下常规计算:
在这里插入图片描述
对于输入为 a [ l ] a^{[l]} a[l],经过两层处理后得到输出 a [ l + 2 ] a^{[l + 2]} a[l+2]。每一层由神经元组成, a [ l ] a^{[l]} a[l]先进入第一层得到 a [ l + 1 ] a^{[l + 1]} a[l+1],再进入第二层得到 a [ l + 2 ] a^{[l + 2]} a[l+2] 。计算过程如下:

  1. 输入 a [ l ] a^{[l]} a[l]首先进行线性变换: z [ l + 1 ] = W [ l + 1 ] a [ l ] + b [ l + 1 ] z^{[l + 1]} = W^{[l + 1]}a^{[l]} + b^{[l + 1]} z[l+1]=W[l+1]a[l]+b[l+1],其中 W [ l + 1 ] W^{[l + 1]} W[l+1]是权重矩阵, b [ l + 1 ] b^{[l + 1]} b[l+1]是偏置项。
  2. 对线性变换结果 z [ l + 1 ] z^{[l + 1]} z[l+1]应用ReLU激活函数: a [ l + 1 ] = g ( z [ l + 1 ] ) a^{[l + 1]} = g(z^{[l + 1]}) a[l+1]=g(z[l+1]) g g g代表ReLU函数。
  3. a [ l + 1 ] a^{[l + 1]} a[l+1]再进行第二次线性变换: z [ l + 2 ] = W [ l + 2 ] a [ l + 1 ] + b [ l + 2 ] z^{[l + 2]} = W^{[l + 2]}a^{[l + 1]} + b^{[l + 2]} z[l+2]=W[l+2]a[l+1]+b[l+2]
  4. z [ l + 2 ] z^{[l + 2]} z[l+2]应用ReLU激活函数得到输出: a [ l + 2 ] = g ( z [ l + 2 ] ) a^{[l + 2]} = g(z^{[l + 2]}) a[l+2]=g(z[l+2])

残差块

残差块是一种特殊的神经网络模块,引入了跳跃连接(图中上面的蓝色箭头)机制,使得网络能够学习输入和输出之间的残差映射,而不是直接学习复杂的恒等映射。
在这里插入图片描述
对于普通网络,理论上(绿色曲线)随着层数增加,训练误差应持续降低,但实际上(蓝色曲线),当层数增加到一定程度,训练误差反而上升,出现性能退化问题。

对于残差网络,随着层数增加,训练误差能够持续下降,避免了普通网络中的性能退化问题,使得网络可以更容易地训练更深的层次,解决普通深层神经网络中梯度消失和性能退化等问题。

本网络引入残差块,有:
在这里插入图片描述
输入 a [ l ] a^{[l]} a[l],直接到 a [ l + 1 ] a^{[l + 1]} a[l+1]线性函数处的输出。计算过程如下:

  1. 输入 a [ l ] a^{[l]} a[l]先进行第一次线性变换: z [ l + 1 ] = W [ l + 1 ] a [ l ] + b [ l + 1 ] z^{[l + 1]} = W^{[l + 1]}a^{[l]} + b^{[l + 1]} z[l+1]=W[l+1]a[l]+b[l+1]
  2. z [ l + 1 ] z^{[l + 1]} z[l+1]应用ReLU激活函数: a [ l + 1 ] = g ( z [ l + 1 ] ) a^{[l + 1]} = g(z^{[l + 1]}) a[l+1]=g(z[l+1])
  3. a [ l + 1 ] a^{[l + 1]} a[l+1]进行第二次线性变换: z [ l + 2 ] = W [ l + 2 ] a [ l + 1 ] + b [ l + 2 ] z^{[l + 2]} = W^{[l + 2]}a^{[l + 1]} + b^{[l + 2]} z[l+2]=W[l+2]a[l+1]+b[l+2]
  4. 跳跃连接(紫色箭头)将 a [ l ] a^{[l]} a[l] z [ l + 2 ] z^{[l + 2]} z[l+2]相加,然后对相加结果应用ReLU激活函数得到最终输出: a [ l + 2 ] = g ( z [ l + 2 ] + a [ l ] ) a^{[l + 2]} = g(z^{[l + 2]} + a^{[l]}) a[l+2]=g(z[l+2]+a[l])

1*1卷积

在这里插入图片描述
对于一个 6 × 6 × 32 6\times6\times32 6×6×32的张量,经过 1 × 1 × 32 1\times1\times32 1×1×32卷积和激活函数,相当于把32个通道的值相加后填入。 1 × 1 1\times1 1×1卷积从根本上可以看作是32个通道都应用了一个全连接神经网络。

使用大小为 1 × 1 1×1 1×1的卷积核时,当输入通道为1时, 1 × 1 1×1 1×1卷积对原特征的缩放操作;多通道时,对于输入特征图的每个区域,计算该区域与卷积核中的元素之和,还可引入激活函数。

在这里插入图片描述

输入为尺寸 28 × 28 × 192 28×28×192 28×28×192的特征图,使用了 32 32 32 1 × 1 1×1 1×1的卷积核对同一个区域进行卷积操作32次,卷积核大小为 1 × 1 × 192 1×1×192 1×1×192(因为输入通道数是 192 192 192),之后经过ReLU激活函数,输出特征图尺寸为 28 × 28 × 32 28×28×32 28×28×32,空间尺寸( 28 × 28 28×28 28×28)保持不变,通道数从 192 192 192减少到了 32 32 32,说明 1 × 1 1×1 1×1卷积可以在不改变特征图空间大小的情况下,对通道数进行降维调整,减少计算量和模型参数数量 。


http://www.kler.cn/a/534225.html

相关文章:

  • dl学习笔记(8):fashion-mnist
  • 哪些专业跟FPGA有关?
  • [数据结构] 线性表和顺序表
  • DeepSeek R1 x ApiSmart
  • Docker技术相关学习三
  • 怀旧经典:1200+款红白机游戏合集,Windows版一键畅玩
  • K8S Deployment 实现 蓝绿 发布
  • 关于19C的审计日志
  • 试试DeepSeek写prompt+stable diffusion生成漫画
  • 【蓝桥杯嵌入式】2_LED
  • 汽车加气站操作工试题及答案​
  • 前端组件标准化专家Prompt指令的最佳实践
  • VulnHub | Prime - 1
  • Ollama AI 开发助手完全指南:从入门到实践
  • C++常用拷贝和替换算法
  • FastAPI与Selenium:打造高效的Web数据抓取服务
  • 【Rancher】简化Kubernetes容器管理与部署的开源平台
  • AlwaysOn 可用性组副本所在服务器以及该副本上数据库的各项状态信息
  • kamailio-osp模块
  • 洛谷P2789 直线交点数
  • 除了 Python,还有哪些语言可以调用淘宝 API?
  • 深度学习系列--02.损失函数
  • k8m 是一款轻量级、跨平台的 Kubernetes 仪表板
  • RabbitMQ:python基础调用
  • DS图(中)(19)
  • 【分布式架构理论2】分布式架构要处理的问题及解决方案