当前位置：首页 > article >正文

【RNN】循环神经网络RNN学习笔记

article 2025/4/2 17:47:24

时间序列任务场景：

语音识别
生成一段音乐
情感分析
DNA序列分析
机器翻译

如何理解时间序列：特点：前后关联强，前因后果，后面产生的结果依赖于之前的结果

标准神经网络建模的弊端：

输入和输出在不同例子中可能有不同的长度
一个像这样单纯的神经网络结构，并不共享从文本不同位置上学习到的特征
参数量巨大（输入的网络特征往往是one hot 或者embedding向量，维度巨大）
没有办法体现出时序上的前因后果

在这里插入图片描述

RNN神经网络：
网络结构：
在这里插入图片描述
RNN特点：

RNN前向传播公式：
在这里插入图片描述
损失函数：

整个时间序列损失函数可以理解为单个时间步损失函数相加

反向传播：
单个单元梯度公式：
在这里插入图片描述

RNN缺点：
在这里插入图片描述
RNN梯度爆炸与梯度消失：

根据公式来看，梯度消失的原因并不是中间的连乘项，而是WS，当WS很小的时候会出现梯度消失情况，当大于一值较大的时候会出现梯度爆炸的情况。WS是需要训练的参数，我们并不能控制。
RNN可以通过梯度裁剪的方式解决梯度爆炸的问题，但是无法解决梯度消失问题。

假设T=20时候：
在这里插入图片描述

为什么需要RNN？

之前的网络只能单独的取处理一个个的输入，前一个输入和后一个输入是完全没有关系的。但是，某些任务需要能够更好的处理序列的信息，即前面的输入和后面的输入是有关系的。
比如，当我们在理解一句话意思时，孤立的理解这句话的每个词是不够的，我们需要处理这些词连接起来的整个序列；当我们处理视频的时候，我们也不能只单独的去分析每一帧，而要分析这些帧连接起来的整个序列。

第一个状态初始化方法