当前位置: 首页 > article >正文

吴恩达深度学习——超参数调试

内容来自https://www.bilibili.com/video/BV1FT4y1E74V,仅为本人学习所用。

文章目录

  • 超参数调试
    • 调试
    • 选择范围
  • Batch归一化
    • 公式
    • 整合
  • Softmax

超参数调试

调试

目前学习的一些超参数有学习率 α \alpha α(最重要)、动量梯度下降法 β \beta β(次重要)、Adam优化算法 β 1 \beta_1 β1 β 2 \beta_2 β2 ϵ \epsilon ϵ(这三个参数一般默认)、层数layers(次次重要)、不同层中的隐藏单元数量hidden units(次重要)、学习率衰减learning rate decay(次次重要)、小批量大小mini-batch size(次重要)。在这里插入图片描述

对于超参数的取值,如果有两个超参数,可以画一个网格,然后随机取值;如果有三个超参数,画一个立方体随机取值。

另外,可以从粗到细取值。在某个范围内取的超参数明显比周围的效果要好,那么可以在这个范围内细分取值。

在这里插入图片描述
在这里插入图片描述

选择范围

在这里插入图片描述

假设学习率在0.0001~1之间,那么不应该随机均匀取值,否则大部分数据落在0.1~1上,因此,使用对数标尺搜索超参数。 0.0001 = 1 0 − 4 , 1 = 1 0 0 , r ∈ [ − 4 , 0 ] 0.0001=10^{-4},1=10^0,r\in[-4,0] 0.0001=104,1=100,r[4,0]。在 r r r的范围内随机取值,然后使用对数重新映射到对数标尺上。

Batch归一化

在这里插入图片描述
对于单层神经网络,对参数 x x x归一化,可以方便算法优化。
在这里插入图片描述
对于多层神经网络比如 w [ 3 ] w^{[3]} w[3],是否可以对参数 a [ 2 ] a^{[2]} a[2]归一化? a [ 2 ] a^{[2]} a[2]来自于 z [ 2 ] z^{[2]} z[2],所以对 z [ 2 ] z^{[2]} z[2]进行归一化,称为Batch归一化。

公式

  1. 计算均值:对于给定的mini - batch数据(以神经网络某层输入 z ( 1 ) , z ( 2 ) , ⋯   , z ( m ) z^{(1)}, z^{(2)}, \cdots, z^{(m)} z(1),z(2),,z(m)为例, m m m是mini - batch大小),计算其均值 μ \mu μ μ = 1 m ∑ i = 1 m z ( i ) \mu=\frac{1}{m}\sum_{i = 1}^{m}z^{(i)} μ=m1i=1mz(i)
  2. 计算方差:计算mini - batch数据的方差 σ 2 \sigma^2 σ2 σ 2 = 1 m ∑ i = 1 m ( z ( i ) − μ ) 2 \sigma^2=\frac{1}{m}\sum_{i = 1}^{m}(z^{(i)} - \mu)^2 σ2=m1i=1m(z(i)μ)2
  3. 归一化:对每个数据点 z ( i ) z^{(i)} z(i)进行归一化,得到 z n o r m ( i ) = z ( i ) − μ σ 2 + ϵ z_{norm}^{(i)}=\frac{z^{(i)} - \mu}{\sqrt{\sigma^2+\epsilon}} znorm(i)=σ2+ϵ z(i)μ,其中 ϵ \epsilon ϵ是一个很小的正数(如 1 0 − 8 10^{-8} 108),防止分母为零。
  4. 尺度变换和偏移:引入可学习参数 γ \gamma γ(尺度参数)和 β \beta β(偏移参数),对归一化后的数据进行变换: z ^ ( i ) = γ z n o r m ( i ) + β \hat{z}^{(i)}=\gamma z_{norm}^{(i)}+\beta z^(i)=γznorm(i)+β
    如果 γ = σ 2 + ϵ , β = μ \gamma=\sqrt{\sigma^2+\epsilon},\beta=\mu γ=σ2+ϵ β=μ,有 z ^ ( i ) \hat{z}^{(i)} z^(i)= z ( i ) z^{(i)} z(i) γ 、 β \gamma、\beta γβ是新引入的超参数。

整合

在这里插入图片描述

输入层有 x 1 x_1 x1 x 2 x_2 x2 x 3 x_3 x3三个输入特征,经过两层隐藏层,每层有两个神经元,最终输出 y ^ \hat{y} y^。神经元中 z [ l ] z^{[l]} z[l]表示第 l l l层的线性输出, a [ l ] a^{[l]} a[l]表示第 l l l层的激活输出。

在每一层的线性输出 z [ l ] z^{[l]} z[l]之后进行Batch归一化(BN)操作,引入可学习参数 β [ l ] \beta^{[l]} β[l] γ [ l ] \gamma^{[l]} γ[l],归一化后再经过激活函数得到 a [ l ] a^{[l]} a[l]。图中红色波浪线部分表示Batch归一化的处理位置。

在神经网络中,某层的线性输出原本为 z = W x + b z = Wx + b z=Wx+b 。当进行Batch归一化时,由于后续的 β \beta β(偏移参数)也起到了类似 b b b的添加偏移量的作用,所以从效果上看, b b b的作用被 β \beta β替代了。也就是说, b b b对输入数据所做的添加偏移量的操作,在Batch归一化后的 β \beta β操作中可以等效实现,因此在实际计算中可以将 b b b消去,简化计算过程。

在实际应用中,由于样本是mini-Batch,因此,归一化时可以使用指数加权平均来计算 μ \mu μ σ 2 \sigma^2 σ2

Softmax

之前的分类采用二分分类,这种分类只有0和1两种标记。如果我们需要更多的标记,可以使用Softmax回归来识别多种分类中的一个。

在这里插入图片描述

对于识别猫、狗、小鸡以及其他类别,总共有 C = 4 C = 4 C=4个类别,分别用0(其他)、1(猫)、2(狗)、3(小鸡)表示。下方的神经网络架构,输入 X X X经过多个隐藏层,最终输出层有 n [ L ] = 4 n^{[L]} = 4 n[L]=4个神经元,分别对应输入图像属于“其他”“猫”“狗”“小鸡”这四类的概率 P ( o t h e r ∣ x ) P(other|x) P(otherx) P ( c a t ∣ x ) P(cat|x) P(catx) P ( d o g ∣ x ) P(dog|x) P(dogx) P ( b c l ∣ x ) P(bcl|x) P(bclx),输出 y ^ \hat{y} y^代表预测的类别。

对于 z [ l ] = W [ l ] a [ l − 1 ] + b [ l ] z^{[l]} = W^{[l]}a^{[l - 1]}+b^{[l]} z[l]=W[l]a[l1]+b[l] ,使用Softmax作为激活函数。先对 z [ l ] z^{[l]} z[l]进行指数运算得到 t = e z [ l ] t = e^{z^{[l]}} t=ez[l] ,然后通过Softmax公式计算激活输出 a [ l ] a^{[l]} a[l] a [ l ] = e z [ l ] ∑ j = 1 4 t i a^{[l]}=\frac{e^{z^{[l]}}}{\sum_{j = 1}^{4}t_{i}} a[l]=j=14tiez[l] ,其元素 a i [ l ] = t i ∑ j = 1 4 t i a_{i}^{[l]}=\frac{t_{i}}{\sum_{j = 1}^{4}t_{i}} ai[l]=j=14titi ,将线性输出转换为概率分布。


http://www.kler.cn/a/528768.html

相关文章:

  • GenAI 在金融服务领域的应用:2025 年的重点是什么
  • 拉格朗日定理
  • react中useEffect的使用
  • C#,入门教程(12)——数组及数组使用的基础知识
  • 使用vhd虚拟磁盘安装两个win10系统
  • Linux网络 | 网络层IP报文解析、认识网段划分与IP地址
  • WSL2 Ubuntu20.04 无法联网,解决方案
  • 一个缓冲区重叠漏洞分析与利用
  • 杨波 简单逻辑学:理性思考、清晰表达并解决问题 - 读书笔记
  • Vue.js 新的生命周期钩子:`onMounted`, `onUpdated` 等
  • 5.4.2 结构化设计方法+结构化程序设计方法
  • 基于Python的药物相互作用预测模型AI构建与优化(上.文字部分)
  • 自适应细粒度通道注意力机制FCA详解及代码复现
  • 使用C#开发一款通用数据库管理工具
  • 攻防世界_simple_php
  • c++ linux recv的概念和使用案例(服务端和客户端都有)
  • 【数据结构篇】时间复杂度
  • 读书笔记-《你的灯亮着吗?》
  • 嵌入式硬件篇---CPUGPUTPU
  • taskset -c 1-60
  • 5. 【Vue实战--孢子记账--Web 版开发】-- 主页UI
  • Python字典详解:从入门到实践
  • P3199 【[HNOI2009]最小圈】
  • 【自学笔记】Web前端的重点知识点-持续更新
  • 【llm对话系统】大模型 Llama 源码分析之 LoRA 微调
  • 【Vaadin flow 实战】第5讲-使用常用UI组件绘制页面元素