当前位置: 首页 > article >正文

RNN中的梯度消失与梯度爆炸问题

梯度消失与梯度爆炸问题

循环神经网络(Recurrent Neural Network,RNN)是一类具有短期记忆能力的神经网络.在循环神经网络中,神经元不但可以接受其他神经元的信息,也可以接受自身的信息,形成具有环路的网络结构。

在RNN中,梯度计算时需要沿时间步反向传播(BPTT,Backpropagation Through Time),这个算法即按照时间的逆序将梯度信息一步步地往前传递.当输入序列比较长时了,时间步展开导致的长链乘积会存在梯度爆炸和消失问题,也称为长程依赖问题。

简单的前馈神经网络

上图是一个简单的循环神经网络,只有一个隐藏层的神经网络,𝒉_𝑡不仅和当前时刻的输入𝒙_𝑡 相关,也和上一个时刻的隐藏层状态𝒉_{𝑡−1} 相关

梯度消失与爆炸

分析步骤

分析步骤

分析:

1、使用了一个4层的前馈神经网络来模拟展开的RNN。

2、若激活函数是Sigmoid,求梯度的最大值是0.25,可能会导致梯度消失问题,这时候网络就学习不到东西了,即无法更新梯度。

3、若权重设置过大了,可能出现梯度爆炸问题,梯度变成NaN。

注:最后等式括号中根据不同的激活函数有不同的导数。


http://www.kler.cn/a/383319.html

相关文章:

  • sentinel笔记9- 限流规则持久化(上)
  • Element-ui的使用教程 基于HBuilder X
  • Android U 多任务启动分屏——system_server流程(更新中)
  • vue3 如何使用 mounted
  • 活着就好20241225
  • LeetCode 844. 比较含退格的字符串 (C++实现)
  • 化学学习和工作常用网站推荐
  • 如何用ChatGPT结合Python处理遥感数据
  • 家在你心里意味着什么?
  • 【计算机网络】零碎知识点(易忘 / 易错)总结回顾
  • SD-WAN助力企业实现供应链数字化
  • scala set训练
  • 数据采集之scrapy框架
  • 每日一题——第一百二十四题
  • PPO(Proximal Policy Optimization)算法介绍
  • Ubuntu Docker 安装
  • template和span标签的使用
  • Kafka相关知识点(上)
  • 删除GitLab仓库中项目下面的多个文件夹
  • 【数据库系统概论】第3章 关系数据库标准语言SQL(二)数据查询(超详细)
  • 【Python】轻松解析JSON与XML:Python标准库的json与xml模块
  • K8S篇(基本介绍)
  • 【Linux】centos7安装配置DHCP、FTP服务
  • 机器学习:使用协同过滤推荐算进行电影推荐
  • 算法每日练 -- 双指针篇(持续更新中)
  • 如何在服务器端对PDF和图像进行OCR处理