当前位置: 首页 > article >正文

两层神经网络的参数求导过程

假设输入数据 x ∈ R n x\in\mathbb{R}^n xRn,两层神经网络有以下形式:

在这里插入图片描述
其中 W 1 ∈ R h × n W_1\in\mathbb{R}^{h\times n} W1Rh×n W 2 ∈ R m × h W_2\in\mathbb{R}^{m\times h} W2Rm×h 分别是第一层和第二层的权重矩阵, b 1 ∈ R h b_1\in\mathbb{R}^h b1Rh b 2 ∈ R m b_2\in\mathbb{R}^m b2Rm 分别是第一层和第二层的偏置向量, σ \sigma σ 是激活函数。

梯度是一个关于参数的向量,指出每个参数的变化方向,以便在优化过程中更新参数。对于每个参数,可以计算它对目标函数的梯度。在这里,我们将使用交叉熵损失函数作为目标函数:

在这里插入图片描述
其中 y ∈ R m y\in\mathbb{R}^m yRm 是真实标签向量, y ^ ∈ R m \hat{y}\in\mathbb{R}^m y^Rm 是模型预测标签向量。

我们需要求出每个参数的偏导数,以计算梯度。下面是各参数的偏导数:

在这里插入图片描述
其中 ⊙ \odot 是哈达玛积, σ ′ \sigma' σ σ \sigma σ 的导数。

最终,对于每个参数,我们可以将其梯度表示为:
在这里插入图片描述
使用梯度下降等算法,可以通过调整参数来最小化损失函数。


为了更好地理解上面公式中的符号和求导过程,下面进行一些详细的解释和推导。

首先,对于神经网络中的每个节点,都有一个加权和和一个激活函数。对于第一层,输入 x x x 经过加权和后得到:

其中, W 1 W_1 W1 是第一层的权重矩阵, b 1 b_1 b1 是第一层的偏置向量。然后, z 1 z_1 z1 经过激活函数 σ \sigma σ 得到:

在这里插入图片描述

h 1 h_1 h1 作为第二层的输入,经过加权和后得到:

在这里插入图片描述
最后, z 2 z_2 z2 经过激活函数 σ \sigma σ 得到网络的输出:
在这里插入图片描述
这个输出向量 y ^ \hat{y} y^ 是模型对输入 x x x 的预测结果。

现在,我们来推导损失函数对参数的梯度。首先,我们需要求出损失函数关于网络输出 y ^ \hat{y} y^ 的偏导数:

在这里插入图片描述
然后,根据链式法则,我们可以计算出损失函数对最后一层加权和 z 2 z_2 z2 的偏导数:

在这里插入图片描述
其中, σ ′ ( z 2 , i ) \sigma'(z_{2,i}) σ(z2,i) 表示 σ \sigma σ 函数在 z 2 , i z_{2,i} z2,i 处的导数。

接下来,我们需要计算损失函数对第二层参数 W 2 W_2 W2 b 2 b_2 b2 的偏导数。根据链式法则,我们可以得到:

在这里插入图片描述
对于第一层,根据链式法则,我们可以计算出损失函数对第一层加权和 z 1 z_1 z1 的偏导数:

在这里插入图片描述
其中, W 2 , i , j W_{2,i,j} W2,i,j 表示第二层的权重矩阵中第 i i i 行第 j j j 列的元素。

最后,我们可以计算损失函数对第一层参数 W 1 W_1 W1 b 1 b_1 b1 的偏导数:

在这里插入图片描述
其中, x k x_k xk 表示输入向量 x x x 中第 k k k 个元素。

综上所述,我们可以得到损失函数关于所有参数的偏导数公式。利用这些公式,我们可以使用梯度下降等优化算法来更新参数,从而不断改进神经网络的性能。


⊙ \odot 符号表示矩阵的按元素乘法,也称为哈达玛积。例如,如果有两个同样大小的矩阵 A A A B B B,则它们的哈达玛积为:

在这里插入图片描述
其中, a i , j a_{i,j} ai,j b i , j b_{i,j} bi,j 分别表示矩阵 A A A B B B 中第 i i i 行第 j j j 列的元素。

在神经网络中,哈达玛积的应用比较广泛。例如,在反向传播算法中,我们需要计算两个矩阵的按元素乘积,以便计算损失函数对权重参数的偏导数。具体地,对于两个相同大小的矩阵 A A A B B B,它们的按元素乘积 C = A ⊙ B C = A \odot B C=AB 的每个元素 c i , j = a i , j ⋅ b i , j c_{i,j} = a_{i,j} \cdot b_{i,j} ci,j=ai,jbi,j,然后将 C C C 作为中间变量用于计算梯度。


http://www.kler.cn/a/11847.html

相关文章:

  • 在 Service Worker 中caches.put() 和 caches.add()/caches.addAll() 方法他们之间的区别
  • 11张思维导图带你快速学习java
  • 24/11/13 算法笔记<强化学习> DQN算法
  • Springboot集成syslog+logstash收集日志到ES
  • k8s集群安装(kubeadm)
  • linux 下查看程序启动的目录
  • Redis分布式锁的实现方式及底层原理
  • 数字图像处理(第三版)绪论笔记
  • vue监视数据的原理、收集表单数据
  • 「SQL面试题库」 No_36 树节点
  • 【机器视觉------标定篇(二)】三点成圆算法(求相机旋转中心)
  • 【算法LearnNO.1】算法介绍以及算法的时间复杂度和空间复杂度
  • Python遥感开发之FY的批量处理
  • 关于二叉树访问顺序的选择题
  • 中核科技:科技匠心 智启未来
  • huggingface transformer模型介绍
  • 【记录】windows中edge常用快捷键
  • 统信UOS专业版系统安装教程 - 手动分区安装UOS系统
  • MinIO基础教程
  • 矩阵键盘+CH559制作国产USB矩阵键盘
  • 2023年4月 每日一题 day2
  • 丝滑的打包部署,一套带走~
  • tpm2-tools源码分析之tpm2_create.c(2)
  • 如何使用Socks5代理IP提高网络安全性
  • 【Python】ChatGPT入门
  • 找漏洞赚外快?给ChatGPT挑毛病,最高奖励14万