当前位置：首页 > article >正文

两层神经网络的参数求导过程

article 2025/4/2 11:25:27

假设输入数据 $x\in\mathbb{R}^n$ ，两层神经网络有以下形式：

在这里插入图片描述
其中 $W_1\in\mathbb{R}^{h\times n}$ 和 $W_2\in\mathbb{R}^{m\times h}$ 分别是第一层和第二层的权重矩阵， $b_1\in\mathbb{R}^h$ 和 $b_2\in\mathbb{R}^m$ 分别是第一层和第二层的偏置向量， $\sigma$ 是激活函数。

梯度是一个关于参数的向量，指出每个参数的变化方向，以便在优化过程中更新参数。对于每个参数，可以计算它对目标函数的梯度。在这里，我们将使用交叉熵损失函数作为目标函数：

在这里插入图片描述
其中 $y\in\mathbb{R}^m$ 是真实标签向量， $\hat{y}\in\mathbb{R}^m$ 是模型预测标签向量。

我们需要求出每个参数的偏导数，以计算梯度。下面是各参数的偏导数：

在这里插入图片描述
其中 $\odot$ 是哈达玛积， $\sigma'$ 是 $\sigma$ 的导数。

最终，对于每个参数，我们可以将其梯度表示为：
在这里插入图片描述
使用梯度下降等算法，可以通过调整参数来最小化损失函数。

为了更好地理解上面公式中的符号和求导过程，下面进行一些详细的解释和推导。

首先，对于神经网络中的每个节点，都有一个加权和和一个激活函数。对于第一层，输入 $x$ 经过加权和后得到：

其中， $W_1$ 是第一层的权重矩阵， $b_1$ 是第一层的偏置向量。然后， $z_1$ 经过激活函数 $\sigma$ 得到：

在这里插入图片描述

$h_1$ 作为第二层的输入，经过加权和后得到：

在这里插入图片描述
最后， $z_2$ 经过激活函数 $\sigma$ 得到网络的输出：

这个输出向量 $\hat{y}$ 是模型对输入 $x$ 的预测结果。

现在，我们来推导损失函数对参数的梯度。首先，我们需要求出损失函数关于网络输出 $\hat{y}$ 的偏导数：

在这里插入图片描述
然后，根据链式法则，我们可以计算出损失函数对最后一层加权和 $z_2$ 的偏导数：

在这里插入图片描述
其中， $\sigma'(z_{2,i})$ 表示 $\sigma$ 函数在 $z_{2,i}$ 处的导数。

接下来，我们需要计算损失函数对第二层参数 $W_2$ 和 $b_2$ 的偏导数。根据链式法则，我们可以得到：

在这里插入图片描述
对于第一层，根据链式法则，我们可以计算出损失函数对第一层加权和 $z_1$ 的偏导数：

在这里插入图片描述
其中， $W_{2,i,j}$ 表示第二层的权重矩阵中第 $i$ 行第 $j$ 列的元素。

最后，我们可以计算损失函数对第一层参数 $W_1$ 和 $b_1$ 的偏导数：

在这里插入图片描述
其中， $x_k$ 表示输入向量 $x$ 中第 $k$ 个元素。

综上所述，我们可以得到损失函数关于所有参数的偏导数公式。利用这些公式，我们可以使用梯度下降等优化算法来更新参数，从而不断改进神经网络的性能。

$\odot$ 符号表示矩阵的按元素乘法，也称为哈达玛积。例如，如果有两个同样大小的矩阵 $A$ 和 $B$ ，则它们的哈达玛积为：

在这里插入图片描述
其中， $a_{i,j}$ 和 $b_{i,j}$ 分别表示矩阵 $A$ 和 $B$ 中第 $i$ 行第 $j$ 列的元素。

在神经网络中，哈达玛积的应用比较广泛。例如，在反向传播算法中，我们需要计算两个矩阵的按元素乘积，以便计算损失函数对权重参数的偏导数。具体地，对于两个相同大小的矩阵 $A$ 和 $B$ ，它们的按元素乘积 $\odot B$ 的每个元素 $c_{i,j} = a_{i,j} \cdot b_{i,j}$ ，然后将 $C$ 作为中间变量用于计算梯度。