两层神经网络的参数求导过程
假设输入数据 x ∈ R n x\in\mathbb{R}^n x∈Rn,两层神经网络有以下形式:
其中
W
1
∈
R
h
×
n
W_1\in\mathbb{R}^{h\times n}
W1∈Rh×n 和
W
2
∈
R
m
×
h
W_2\in\mathbb{R}^{m\times h}
W2∈Rm×h 分别是第一层和第二层的权重矩阵,
b
1
∈
R
h
b_1\in\mathbb{R}^h
b1∈Rh 和
b
2
∈
R
m
b_2\in\mathbb{R}^m
b2∈Rm 分别是第一层和第二层的偏置向量,
σ
\sigma
σ 是激活函数。
梯度是一个关于参数的向量,指出每个参数的变化方向,以便在优化过程中更新参数。对于每个参数,可以计算它对目标函数的梯度。在这里,我们将使用交叉熵损失函数作为目标函数:
其中
y
∈
R
m
y\in\mathbb{R}^m
y∈Rm 是真实标签向量,
y
^
∈
R
m
\hat{y}\in\mathbb{R}^m
y^∈Rm 是模型预测标签向量。
我们需要求出每个参数的偏导数,以计算梯度。下面是各参数的偏导数:
其中
⊙
\odot
⊙ 是哈达玛积,
σ
′
\sigma'
σ′ 是
σ
\sigma
σ 的导数。
最终,对于每个参数,我们可以将其梯度表示为:
使用梯度下降等算法,可以通过调整参数来最小化损失函数。
为了更好地理解上面公式中的符号和求导过程,下面进行一些详细的解释和推导。
首先,对于神经网络中的每个节点,都有一个加权和和一个激活函数。对于第一层,输入
x
x
x 经过加权和后得到:
其中,
W
1
W_1
W1 是第一层的权重矩阵,
b
1
b_1
b1 是第一层的偏置向量。然后,
z
1
z_1
z1 经过激活函数
σ
\sigma
σ 得到:
h 1 h_1 h1 作为第二层的输入,经过加权和后得到:
最后,
z
2
z_2
z2 经过激活函数
σ
\sigma
σ 得到网络的输出:
这个输出向量
y
^
\hat{y}
y^ 是模型对输入
x
x
x 的预测结果。
现在,我们来推导损失函数对参数的梯度。首先,我们需要求出损失函数关于网络输出 y ^ \hat{y} y^ 的偏导数:
然后,根据链式法则,我们可以计算出损失函数对最后一层加权和
z
2
z_2
z2 的偏导数:
其中,
σ
′
(
z
2
,
i
)
\sigma'(z_{2,i})
σ′(z2,i) 表示
σ
\sigma
σ 函数在
z
2
,
i
z_{2,i}
z2,i 处的导数。
接下来,我们需要计算损失函数对第二层参数 W 2 W_2 W2 和 b 2 b_2 b2 的偏导数。根据链式法则,我们可以得到:
对于第一层,根据链式法则,我们可以计算出损失函数对第一层加权和
z
1
z_1
z1 的偏导数:
其中,
W
2
,
i
,
j
W_{2,i,j}
W2,i,j 表示第二层的权重矩阵中第
i
i
i 行第
j
j
j 列的元素。
最后,我们可以计算损失函数对第一层参数 W 1 W_1 W1 和 b 1 b_1 b1 的偏导数:
其中,
x
k
x_k
xk 表示输入向量
x
x
x 中第
k
k
k 个元素。
综上所述,我们可以得到损失函数关于所有参数的偏导数公式。利用这些公式,我们可以使用梯度下降等优化算法来更新参数,从而不断改进神经网络的性能。
⊙ \odot ⊙ 符号表示矩阵的按元素乘法,也称为哈达玛积。例如,如果有两个同样大小的矩阵 A A A 和 B B B,则它们的哈达玛积为:
其中,
a
i
,
j
a_{i,j}
ai,j 和
b
i
,
j
b_{i,j}
bi,j 分别表示矩阵
A
A
A 和
B
B
B 中第
i
i
i 行第
j
j
j 列的元素。
在神经网络中,哈达玛积的应用比较广泛。例如,在反向传播算法中,我们需要计算两个矩阵的按元素乘积,以便计算损失函数对权重参数的偏导数。具体地,对于两个相同大小的矩阵 A A A 和 B B B,它们的按元素乘积 C = A ⊙ B C = A \odot B C=A⊙B 的每个元素 c i , j = a i , j ⋅ b i , j c_{i,j} = a_{i,j} \cdot b_{i,j} ci,j=ai,j⋅bi,j,然后将 C C C 作为中间变量用于计算梯度。