当前位置：首页 > article >正文

RNN中的梯度消失与梯度爆炸问题

article 2025/4/1 22:56:17

循环神经网络（Recurrent Neural Network，RNN）是一类具有短期记忆能力的神经网络．在循环神经网络中，神经元不但可以接受其他神经元的信息，也可以接受自身的信息，形成具有环路的网络结构。

在RNN中，梯度计算时需要沿时间步反向传播（BPTT，Backpropagation Through Time），这个算法即按照时间的逆序将梯度信息一步步地往前传递．当输入序列比较长时了，时间步展开导致的长链乘积会存在梯度爆炸和消失问题，也称为长程依赖问题。

简单的前馈神经网络

上图是一个简单的循环神经网络，只有一个隐藏层的神经网络，𝒉_𝑡不仅和当前时刻的输入𝒙_𝑡 相关，也和上一个时刻的隐藏层状态𝒉_{𝑡−1} 相关

梯度消失与爆炸

分析：

1、使用了一个4层的前馈神经网络来模拟展开的RNN。

2、若激活函数是Sigmoid，求梯度的最大值是0.25，可能会导致梯度消失问题，这时候网络就学习不到东西了，即无法更新梯度。

3、若权重设置过大了，可能出现梯度爆炸问题，梯度变成NaN。

注：最后等式括号中根据不同的激活函数有不同的导数。

化学学习和工作常用网站推荐

如何用ChatGPT结合Python处理遥感数据

家在你心里意味着什么？

SD-WAN助力企业实现供应链数字化

scala set训练

数据采集之scrapy框架

每日一题——第一百二十四题

PPO(Proximal Policy Optimization)算法介绍

Ubuntu Docker 安装

template和span标签的使用

Kafka相关知识点（上）

K8S篇（基本介绍）

【Linux】centos7安装配置DHCP、FTP服务