当前位置：首页 > article >正文

深度学习知识点：RNN

article 2025/3/1 4:18:06

文章目录

1.简单介绍
2.网络结构
3.应对梯度消失

1.简单介绍

循环神经网络（RNN，Recurrent Neural Network）是一类用于处理序列数据的神经网络。与传统网络相比，变化不是特别大，不如CNN的变化那么大。
为什么要有循环神经网络：
传统神经网络：输入一个数据处理一个数据，互不干扰
但是有些数据是连贯性的，比如一个句子（我今天早上8点醒的），就不可能将每一个字或一些词单独处理，而是在处理这个字的同时还要考虑到与前面字的关系，因此循环神经网络就可以解决这一问题。

图1: 传统神经网络

2.网络结构

RNN 不是刚性地记忆所有固定长度的序列，而是通过隐藏状态来存储之前时间步的信息。
也就是说在循环神经网络的隐藏层中，输入的数据走向有两个：输出和等待，等待是指等待第二个数据的到来并对第二个数据的隐藏特征产生影响。

图2: 循环神经网络

可以看出，典型的 RNN 是有环结构(图3a)。一个典型的 RNN 网络架构包含一个输入，一个输出和一个神经网络单元。和普通的前馈神经网络的区别在于：RNN 的神经网络单元不但与输入和输出存在联系，而且自身也存在一个循环 / 回路 / 环路 / 回环 (loop)。这种回路允许信息从网络中的一步传递到下一步。同时，RNN 还能按时间序列展开循环 (unroll the loop) 为图2b：

图3: a)等号左：整体网络；b)等号右：整体网络的分解

由上图可知，上一个时刻的网络状态将会作用于到下一个时刻的网络状态，还表明 RNN 和序列数据密切相关。同时，RNN 要求每一个时刻都有一个输入，但是不一定每个时刻都需要有输出。最终我们需要的只是h _t的结果，举个例子：拿出手写数据集中的一张照片，将其分割成784维的向量，我们只需要在最后一维向量输入进去后看整体的结果是属于0-9的哪种类别即可，最后的输出结果隐含了前面的信息，所以中间隐藏层的结果我们并不需要知道。进一步地，公式化 RNN 的结构如下：

图4: RNN结构推导式

在图中有一条单向流动的信息流是从输入单元到达隐藏单元的，与此同时另一条单向流动的信息流从隐藏单元到达输出单元。在某些情况下，RNNs 会打破后者的限制，引导信息从输出单元返回隐藏单元，这些被称为 “Back Projections”，并且隐藏层的输入还包括上一隐藏层的状态，即隐藏层内的节点可以自连也可以互连（这实际上就是 LSTM）。

循环神经网络的输入是序列数据，每个训练样本是一个时间序列，包含多个相同维度的向量。网络的参数如何通过训练确定？这里就要使用解决 RNN 训练问题的 BPTT（Back Propagation Through Time）算法。
右侧为计算时便于理解记忆而产生的结构。简单说，x 为输入层，o 为输出层，s 为隐含层，而 t 指第几次的计算；V、W、U为权重（在 RNN 中，每一层都共享参数U、V、W，降低了网络中需要学习的参数，提高学习效率。 x_t 表示 t 时刻的输入， S_t表示 t 时刻的隐状态， O_t表示 t 时刻的输出。

输入单元（input units）： $\{x_{0}, \cdot \cdot \cdot, x_{t-1}, x_{t}, x_{t+1}, \cdot \cdot \cdot\}$
隐藏单元（hidden units）： $\{s_{0}, \cdot \cdot \cdot, s_{t-1}, s_{t}, s_{t+1}, \cdot \cdot \cdot\}$
输出单元（output units）： $\{o_{0}, \cdot \cdot \cdot, o_{t-1}, o_{t}, o_{t+1}, \cdot \cdot \cdot\}$
输入层： $x_{t}$ 表示时刻 $t$ 的输入。