当前位置：首页 > article >正文

为什么RNN(循环神经网络)存在梯度消失和梯度爆炸？

article 2025/3/11 15:50:37

1️⃣ 原理分析

在这里插入图片描述
RNN前向传播的公式为：

$x_t$ 是t时刻的输入
$s_t$ 是t时刻的记忆， $s_t=f(U\cdot x_t+W\cdot s_{t-1})$ ，f表示激活函数， $s_{t-1}$ 表示t-1时刻的记忆
$o_t$ 是t时刻的输出， $o_t=softmax(V\cdot s_t)$

采用交叉熵作为损失函数：
$L=\sum_{i=1}^{T}-\bar{o_{t}}logo_{t}$
其中T代表时间步的长度， $\bar o_{t}$ 代表ground truth， $o_t$ 代表预测的输出。

假设有三个时间步， $t = 1, 2, 3$ 。假设初始记忆 $s_t=0$ ，则 $t = 1$ 时的记忆和输出为：
$\begin{aligned}&s_1=f(Ux_1+Ws_0)\\&o_{1}=f[V\cdot f(Ux_{1}+Ws_{0})]\end{aligned}$
$t = 2$ 时的记忆和输出为：
$\begin{aligned}&s_2=f(Ux_2+Ws_1)\\&o_{2}=f[V\cdot f(Ux_{2}+Ws_{1})]=f[V\cdot f(Ux_{2}+Wf(Ux_1+Ws_0))]\end{aligned}$

这样很晕，我来画个箭头：
在这里插入图片描述
可以发现 $s_2$ 是 $s_1$ 的函数

$t = 3$ 时的记忆和输出为：
$\begin{aligned}&s_3=f(Ux_3+Ws_2)\\&o_{3}=f[V\cdot f(Ux_{3}+Ws_{2})]=f[V\cdot f(Ux_{3}+Wf(Ux_2+Ws_1))]=f[V\cdot f(Ux_{3}+Wf(Ux_2+Wf(Ux_1+Ws_0)))] \end{aligned}$
画个箭头：
在这里插入图片描述
可以发现 $s_3$ 是 $s_2$ 的函数，又 $s_2$ 是 $s_1$ 的函数，因此 $s_3$ 包含 $s_2$ 和 $s_1$

然后我们来分析反向传播：BPTT（Back-Propagation Through Time，时间上的反向传播）是针对RNN的训练算法，它的核心依然是基于梯度下降的反向传播。对于RNN来说，主要参数包括U、W和V。
在这里插入图片描述
以t=3时举例子，求U，V，W的梯度：
$\begin{aligned} &\frac{\partial L_3}{\partial V} =\frac{\partial L_3}{\partial o_3}\frac{\partial o_3}{\partial V}\textcircled{3} \\ &\frac{\partial L_3}{\partial W} =\frac{\partial L_3}{\partial o_3}\frac{\partial o_3}{\partial s_3}\frac{\partial s_3}{\partial W}+\frac{\partial L_3}{\partial o_3}\frac{\partial o_3}{\partial s_2}\frac{\partial s_2}{\partial W}+\frac{\partial L_3}{\partial o_3}\frac{\partial o_3}{\partial s_3}\frac{\partial s_3}{\partial s_2}\frac{\partial s_2}{\partial s_1}\frac{\partial s_1}{\partial W}\textcircled{4} \\ &\frac{\partial L_3}{\partial U} =\frac{\partial L_3}{\partial o_3}\frac{\partial o_3}{\partial s_3}\frac{\partial s_3}{\partial U}+\frac{\partial L_3}{\partial o_3}\frac{\partial o_3}{\partial s_2}\frac{\partial s_2}{\partial U}+\frac{\partial L_3}{\partial o_3}\frac{\partial o_3}{\partial s_3}\frac{\partial s_3}{\partial s_2}\frac{\partial s_2}{\partial s_1}\frac{\partial s_1}{\partial U}\textcircled{5} \end{aligned}$

对于公式⑤可以简写成：
$\frac{\partial L_3}{\partial U}=\sum_{k=0}^3\frac{\partial L_3}{\partial o_3}\frac{\partial o_3}{\partial s_3}\frac{\partial s_3}{\partial s_k}\frac{\partial s_k}{\partial U}$

由于 $\frac{\partial s_3}{\partial s_k}$ 也需要链式法则，即 $\frac{\partial s_3}{\partial s_1}=\frac{\partial s_3}{\partial s_2}\frac{\partial s_2}{\partial s_1}$ 。因此公式可以进一步修改为：

$\frac{\partial L_3}{\partial U}=\sum_{k=1}^3\frac{\partial L_3}{\partial o_3}\frac{\partial o_3}{\partial s_3}\frac{\partial s_3}{\partial s_k}\frac{\partial s_k}{\partial U}=\sum_{k=1}^3\frac{\partial L_3}{\partial o_3}\frac{\partial o_3}{\partial s_3}(\prod_{j=k+1}^3\frac{\partial s_j}{\partial s_{j-1}})\frac{\partial s_k}{\partial U}\textcircled{6}$

同理，对公式④也可以写为：
$\frac{\partial L_3}{\partial W}=\sum_{k=1}^3\frac{\partial L_3}{\partial o_3}\frac{\partial o_3}{\partial s_3}(\prod_{j=k+1}^3\frac{\partial s_j}{\partial s_{j-1}})\frac{\partial s_k}{\partial W}\textcircled{7}$

观察③式，对与V的偏导不存在依赖关系。

观察④和⑤式，对W和U求偏导的时候，存在长期依赖关系。原因是前向传播的时候 $s_t$ 会随着时间向前传播，而 $s_t$ 是W、U的函数。

假设激活函数为tanh，将⑥⑦中累乘部分取出来：
$\prod_{j=k+1}^3\frac{\partial s_j}{\partial s_{j-1}}=\prod_{j=k+1}^3tanh^{'}W$
例如： $s_3=f(Ux_3+Ws_2)$ ， $\frac{\partial s3}{\partial s_{2}}=tanh'(U) W$
在这里插入图片描述

由上图可知，tanh的梯度最大为1，通常情况下会小于1，因此当t很大的时候，例如t=100时，⑥⑦中的累乘部分 $\prod_{j=k+1}^{100}tanh^{^{\prime}}W$ 将趋于0，因此t=100时对于W和U的梯度将趋于0，导致梯度消失。

分析完tanh，再来分析一下W，如果W中的值太大，那么产生问题就是梯度爆炸

2️⃣ 总结

RNN存在梯度消失的原因是：隐藏层的输出 $s_t$ 会向前传播，这样导致在反向传播求梯度时存在一个累乘项，这个累乘项由激活函数的梯度和参数W组成，如果我们采用tanh作为激活函数，其梯度小于1，时间步越多，累乘项越趋近于0，导致梯度消失。
RNN存在梯度爆炸的原因：参数W如果过大，则会导致累乘项逐渐变大，导致梯度爆炸