当前位置: 首页 > article >正文

从RNN循环神经网络到长短时记忆网络LSTM

前言

        本文从一个简单的例子出发,介绍了RNN及其两种变体LSTM和GRU的基本原理,了解循环神经网络能够解决什么问题,以及能够应用在哪些领域。

        1)本文重点:本文重点研究RNN及其变体的原理和解决的问题;

        2)本文缺陷:本文为有倾向性的知识整理;由于笔者才疏学浅,重文字描述轻数学推导。

目录

一 回顾前馈神经网络FNN

二 循环神经网络RNN原理

三 LSTM(Long Short-term Memory)

四 GRU(Gate Recurrent Unit)

五 RNN应用场景

六 总结

一 回顾前馈神经网络FNN

        1.简介

        前馈神经网络(feedforward neural network)是深度学习中最简单,也是最基础的网络结构,很多神经网络的变体,都是由前馈神经网络发展而来;

        2.网络结构

        前馈神经网络包括输入层,隐藏层,输出层三个部分,其中每层的神经元数量比较灵活,隐藏层可以是一个也可以是多个;每一层神经元接受前一层神经元的输出,与前一层的每个神经元都有连接,并输出到下一层的神经元,同样的,与下一层的每个神经元都有连接,但同一层内的神经元之间没有连接;        

                

       神经元可以看作是一个函数,通过简单非线性函数的多次组合,实现输入空间到输出空间的复杂映射;神经网络的结构看起来并不复杂,理解起来也相对简单,但是其功能却非常强大,在维基百科里给出的万能近似定理表明:前馈神经网络,只需要单层隐含层和有限个神经单元,就能以任意精度拟合任意复杂度的函数;换句话说,前馈神经网络理论上是能拟合任意函数的黑盒;

       既然前馈神经网络如此强大,为什么还需要"循环神经网络"呢?

二 循环神经网络RNN原理

       1.举个栗子:

        让我们通过一个简单的例子来探讨一下这个问题;

        上图是一张抖音截图,内容是时下热映的电影<孤注一掷>,当然是什么电影并不是我们今天关注的重点,假如我是一个电影解说的抖音博主,我发布了一个电影相关的内容,收获了非常多的点赞和评论,我想了解评论里面是正面的评论多还是负面的评论多,一条一条的阅读那肯定是不现实的;

        此时,我们可以将这个问题,归结为"情感分析"问题,输入是一条一条的评论内容,输出是"积极"或者"消极",也就是一个二元分类器;

        现在我们获取到一条评论,内容是:"没有某某,令我失望",这个某某可能是代表某个演员的名字;把这句话作为情感分析系统的输入,我们应该得到的输出结果是"消极";

        2.FNN解决思路:

         如果这个情感分析系统是前馈神经网络,我们将这句话的文本经过词嵌入,将词向量输入神经网络结构中,通过隐藏层结构的复杂连接和非线性激活函数来提取特征,可能会得到"失望"这个词对分类的结果为"消极"的贡献很大,然后在输出层输出这句话为"消极"的概率,我们很容易得到分类结果;

           全连接前馈神经网络情感分类的过程总结如下:

                输入层:输入词向量

                隐藏层:提取输入数据特征

                输出层:输出分类结果-->"消极"

        现在我们将输入的这句评论稍微变化一下,变成"某某,没有令我失望",这句话里面包含的词并没有发生变化,仅仅是词的顺序发生了变化,但是很明显,虽然第二句话仍然包含"失望"这个词,表达的意思却是"积极"的;

        那么前馈神经网络能够做出这种区分吗? 让我们通过对前馈神经网络结构的剖析,来回答这个问题;

        当我们在判断第一个评论"没有某某,令我失望" 是"积极"还是"消极"的时候,我们只需要把关注点放在"失望"这个词上就可以做出判断,但是当我们要对第一条评论和第二条评论做出区分的时候,只关注"失望"这个词并不能得到满意的结果,我们还需要关注"失望"这个形容词前面,是否有否定副词共同起到一定的作用;第一句中的"失望"前面的"令我"和第二句中失望前面的"没有令我"显然是不同的;    

        我们将每句话中的四个词分别作为一个输入单元输入神经网络模型中,并用四种不同的颜色来区分四个输入的连接权重;仔细观察我们会发现,虽然两个评论输入的内容顺序不同,但由于每个神经元会连接前一层的每个神经元,交换输入词汇的位置,并不会对网络的传输产生任何影响;

        因此,很遗憾的是,前馈神经网络并不能区分两个评论的差异;

        既然前馈神经网络的结构不能区分两个评论,那循环神经网络有什么样的结构,怎么去解决这个问题呢?接下来我们先看看循环神经网络的结构;

        3.RNN网络结构:

       循环神经网络最大的不同,在于其每个隐藏层单元有两个输入,分别是原始输入(也就是我们句子中的每个词汇)或前一层输入,以及同一层前面一个隐藏单元的输出,前面一个是指序列顺序或时间上更早;直观理解就是隐藏层内部有从左到右的顺序连接,但是层和层之间只有相同时间步的位置才有连接;

        隐藏层的输出除了传递给下一层相同位置的单元之外,还会多一个输出用于传递给同一层内下一个时间步上的隐藏单元,加入传递过程参数后的网络结构图如下;

        隐状态:我们可以想象一个盒子,叫做"隐状态",对于一个RNN隐藏层来说,它在每一个时间步的隐藏单元输出时,会将隐藏状态缓存在盒子中,到下一个时间步的隐藏单元输入的时候,将缓存信息作为一种历史记忆和X值一同输入,如此往复,小盒子中的内容在每个时间步都会被"替换";将每层结构折叠,我们可以得到如下示意的结构图;

        共享参数:除了这种类似记忆的传输机制,RNN还有一个参数共享机制,不同的时间步使用的是相同的参数,反映着RNN中的每一步都在做相同的事,只是输入不同,因此大大的降低了网络中需要学习的参数;我们也可以这么来理解RNN的参数共享,当一个句子输入的时候,我们可以看作句子不动,计算单元在上面滑动;参数共享能够使得模型扩展到不同长度的样本,对于长度各不相同的句子来说,顺序比固定的某个位置更为重要;

        现在我们知道了RNN的结构特点,我们用RNN情感分析系统代替FNN情感分析系统,看看会发生什么?

        4.RNN解决思路:

        计算第一句话"没有某某,令我失望"

        首先,我们画一个由四个时间步和单个隐藏层组成的RNN网络,将第一句话"没有某某,令我失望"分词后输入模型;并使用第四个时间节点,也就是最后一个时间节点的输出单元"O4",来输出这句话为"积极"的概率;

        要计算"O4",我们首先需要计算"H4",要计算"H4"首先需要计算"H3","H2","H1";

        因此我们从"H0"和"X1"开始,梳理一下计算过程,定义隐藏层激活函数为f,输出层激活函数为g:

                H0是一个默认参数,需要我们手动设置,

                H0和X1分别与权重做乘积再求和可以得到H1的输入;

                H1和X2再分别与权重做乘积再求和可以得到H2的输入;

                H2和X3再分别与权重做乘积再求和可以得到H3的输入;

                H3和X4再分别与权重做乘积再求和可以得到H4的输入;

                H4的输出再与权重相乘得到O4的输入;

                        H1 = f(H0*W+X1*U)

                        H2 = f(H1*W+X2*U)

                        H3 = f(H2*W+X3*U)

        ​​​​​​​        ​​​​​​​        H4 = f(H2*W+X3*U)

                        O4 = g(H4*V)

                        O4 = g(f(f(f(f(h0*w+x1*u)*w+x2*u)*w+x3*u)*w+x4*u)*v)

        观察右侧的几个等式不难发现,所有隐藏单元在等式中层层嵌套,时间步越靠前的隐藏单元越靠近嵌套的内部;

        计算第二句话"某某,没有令我失望"

        跟第一句评论的计算方式一样,我们现在来计算第二句话的输出"O4",为了对比两句评论词汇输入的顺序差异,我们在输入层,仍将"某某"定义为X2,"没有"定义为X1;接下来就是同样的先计算H1,再计算H2,再计算H3和H4,最后计算O4;

                H1 = f(H0*W+X2*U)

                H2 = f(H1*W+X1*U)

                H3 = f(H2*W+X3*U)

                H4 = f(H3*W+X4*U)

                O4 = g(H4*V)

                O4 = g(f(f(f(f(h0*w+x2*u)*w+x1*u)*w+x3*u)*w+x4*u)*v)

        当然直接看计算结果我们看不出什么不同;让我们把讲句评论的计算过程和结果放到一起来看,由于两句话的输入顺序上,只是把前两个词"没有"和"某某"交换了位置,因此我们将X1和X2用颜色标注出来,方便我们观察结果的差异;

        观察两句评论的O4嵌套等式,也就是最长的等式,我们发现X1X2的位置在等式中顺序也发生了变化,由于各个隐藏单元的计算方式是嵌套的方式,各个输入词汇的计算方式也是嵌套方式,在第一句评论中,输入嵌套的从内到外的顺序分别是 X1,X2,X3,X4;第二句评论中的顺序则是X2,X1,X3,X4,最终我们可以得出结论,RNN能够识别到这种顺序的差异;

        5.RNN设计模式

        现在让我们回到刚才栗子中的网络结构,我们使用了多个输入和单个输出,将隐藏层的最后一个时间步的输出作为模型的最终输出;

        5.1 多输入-单输出

        要计算最后一步的输出Ot+1,我们需要嵌套的计算每个时间步的隐藏单元;这种模型架构产生单个输出的特点,通常适用于像情感分类这种由多输入到单个输出的概括序列的情况;

        5.2 输入输出维度相同

        有时我们不止需要一个输出,当我们需要的输出数量与输入数量是一样多的时候,通常是需要对每个时间步的输入做一个判断的时候,我们只需要在每个时间步输出即可;此时的应用场景如词性标注,生成对联的下联等;

        5.3 输出层与隐藏层循环

        我们前面介绍的RNN网络结构中,通常都是将隐藏层中,前一个时间步的隐藏单元输出作为下一个时间步的隐藏单元的输入,这时循环结构发生在同一个隐藏层中;有时,我们将前一个时间步的输出作为当前时间步隐藏单元的输入,这时,循环结构发生在输出层和隐藏层之间;这种设计模式的应用场景,通常也有词性标注,生成等长的诗句等;

        5.4 双向循环

        有时我们不仅仅需要考虑某个时间步前面的记忆,还需要考虑下文,这时候单向的从前至后的循环结构也不能满足我们的任务需求;此时,需要在隐藏层的循环结构中,分别计算从前至后方向的循环,和从后至前方向的循环,并将他们一并输入下一层;

        循环h在时间上向前传播,循环g在时间上向后传播,在每个时间t,输出Ot可以受益于ht中关于过去的相关概要,和gt中关于未来的相关概要;这种设计模式,可以用于概况序列,并生成用于进一步处理的固定大小的表示;

        5.5 编码-解码模式

        有时,有些任务的输入和输出是多对多的关系,但输入和输出的长度却是不确定的;此时,我们将输入和输出通过一个中间语义C连接,输入部分称为"编码结构",用于提取输入数据的特征,并将最后一个时间步的输出作为中间语义C,用来概况输入数据的信息,当我们解码的时候,除了输入前一个解码时间步中的的隐藏状态,还需要输入语义C;

        这种架构使我们的输出不必是固定长度,这个特点在很多应用场景中都有很高的价值,如机器翻译,语音识别,自动摘要等;

三 LSTM(Long Short-term Memory)

        了解了RNN的基本知识,我们发现RNN能够解决很多输入输出为序列的问题,并且通过加入编码解码结构,可以解决输出的长度不确定的情况,比如机器翻译场景; 

        但RNN仍然存在一些缺点,在实践中有人发现,当序列过长时,RNN很容易忘记前面比较久远的时间段的信息,越近的时间点,对于此刻的输入的影响越大;

        这就导致一个问题,RNN的时间序列不能太长,意味着RNN可能只能处理短句,无法处理长篇文字;因此,我们需要一种新的网络结构来支持长时间的序列输入;

        为了克服长时 输入问题,LSTM应运而生;LSTM长短时记忆网络,是RNN的变体,结构较RNN更加复杂,应用也更为广泛,在实际应用中当人们说RNN模型,通常指的就是LSTM模型,而RNN模型本身又被称作 sample RMM模型;

       1.网络结构

        现在我们回到这张简单的RNN网络结构图

        令每个隐藏单元的激活函数为tanh,并将隐藏层内部的操作展示出来,我们可以得到下图:

        在这里,我们可以看到,隐藏层在t-1时刻的输出值Ht-1被输入到了t时刻的隐藏单元中,与t时刻的输入Xt整合后经过一个带权重和偏置的tanh函数后形成输出,并继续将隐藏层t时刻的输出值Ht输入到下一时刻的隐藏单元,如此循环下去......

        那LSTM和RNN的结构有什么不一样呢?

        我们先来看一组对比图,图中上侧展示的是RNN的隐藏层结构,下侧展示的是LSTM的隐藏层结构;非常直观的可以感受到,LSTM的输入输出和内部结构比RNN要复杂;

        2.输入输出

        首先我们来看输入输出,RNN在t时刻的隐藏层单元,也就是Ht的输入有两部分,分别是t时刻的原始输入Xt,和t-1时刻的隐藏层输出Ht-1;而LSTM在t时刻的隐藏层单元Ht的输入有三部分,除了Xt和Ht-1,还有一个输入,贯穿于整个隐藏层的各个时间步,这个输入被成为"细胞状态",细胞状态像一个传送带,在时间链中传递历史信息;        

        3.细胞状态

        细胞状态与隐藏状态都包含了t时刻之前的历史信息,不同点在于,隐藏状态每个时间步都会被重置,尽管由于不同时间步之间隐藏单元的嵌套关系,隐藏状态仍包含较远时间步的输入信息,但较久远的输入信息已经被极大削弱;细胞状态则不会被重置,在每一个时间步,细胞状态都将保留一定程度的历史信息并添加新信息,引出会保留更丰富的历史信息;

        接下来再看LSTM的内部结构,LSTM能够从RNN中脱颖而出的关键就在于细胞状态;我们可以将神经元的"细胞状态"简单的理解为递归神经网络对于输入数据的"记忆",用Ct表示神经元在t时刻过后的"记忆",这个向量Ct涵盖了在t+1时刻前,网络对于所有输入信息的"概括总结";

        4.门限机制

        LSTM有能力删除或增加"细胞状态"中的信息,这一机制是被成为门限的结构精心管理的;门限是一种让信息选择性通过的方式,它由sigmoid神经网络层和点积操作组成;sigmoid层输出0~1之间的数字,描述了一个神经元有多少信息应该被通过,输出"0"意味着"全部不能通过",输出"1"意味着"让所有信息通过";一个LSTM有三个这样的门限,去保护和控制神经元状态;

        4.1遗忘门 (决定"细胞状态"忘记多少信息)

        第一个门限叫做"遗忘门",对于上一时刻LSTM中的"细胞状态"来说,一些信息可能会随着时间的流逝而"过时",为了不让过时的记忆影响网络对现有输入的处理,我们应选择性遗忘一些在之前"细胞状态"中的分量,这个工作便由"遗忘门"完成;

        因此当"细胞状态"进入到t时刻的隐藏单元,LSTM的第一步就是要决定什么信息应该被神经元遗忘,对于每个时间步LSTM会先根据当前时间步的输入和上一时刻的输出,决定遗忘掉之前的哪些记忆----输入和上一步输出会整合为一个单独的向量,然后通过sigmoid神经层,最后点对点的乘在单元状态上;

        因为sigmoid函数会将任意输入压缩到(0,1)区间,我们可以非常直觉的得出这个门的工作原理---sigmoid层输出为0,则将历史信息"全部遗忘",sigmoid层输出为1,我们将"保持完整记忆",通过这种方式,LSTM可以长期记忆重要信息;

        4.2输入门(决定"当前输入"是否并入"细胞状态")

        输入门是用来控制是否将在t时刻的输入数据并入"细胞状态"中的控制门限;输入门的实现分为两个部分,首先,用tanh函数层将当前输入向量中的有效信息提取处理,然后用sigmoid函数来控制这些记忆要放多少进入"细胞状态";这两者结合起来就得到了经过选择性输入后的当前输入中的有效信息;

        有了经过"遗忘门"筛选后的"细胞状态",和经过"输入门"提取过的当前有效输入;将二者相加,便得到了更新的"细胞状态".即Ct;

        4.3输出门(决定哪些"细胞状态"信息会被纳入当前隐藏单元ht的输出)

        最后,我们通过"输出门"决定当前时间步的隐藏单元输出什么,输出门,顾名思义,就是LSTM单元用于计算当前时刻的输出值的神经层;将经过tanh函数处理后的"细胞状态"与sigmoid层输出相乘,就可以得到LSTM在t时刻的隐藏单元输出;

四 GRU(Gate Recurrent Unit)

        1.网络结构

        LSTM可以说是RNN最流程的变体,但它并不是RNN唯一的变体,GRU是另一种变体,其与LSTM都采用门控机制解决长期记忆问题;

        不同的是,GRU可以看做是LSTM的简化版本,它使用两个门控代替LSTM的三个门控单元,GRU将LSTM中的"输入门"和"遗忘门"合二为一,成为"更新门",控制前边记忆信息能够继续保留到当前时刻;另一个门称为"重置门",控制要遗忘多少过去的信息;

        GRU的结构更加简单,计算成本和时间成本更低,因而很多时候我们也会选择更加easy的GRU

        2.RNN/LSTM/GRU对比

        到目前为止,我们介绍了三种RNN的结构,分别是sample RNN/LSTM/GRU,那么这三种网络模型有什么差别,以及在实际应用中应如何选择?

        首先,可以确定的一件事是带有门控机制的RNN普遍要比传统的RNN表现更佳,目前,很少有实验或论文采用RNN为基本单元;对于LSTM而言,GRU参数更少,收敛速度更快,因此实际花费时间要少很多,这可以大大加速模型的迭代过程;

        从表现上讲,二者之间孰优孰劣并没有定论,这要依据具体的任务和数据集而定;

五 RNN应用场景

        RNN的应用场景较多,下面列出几种常见的应用场景

        1.语音识别

        输入是语音信息序列,输出是文字序列,最常见的比如微信聊天里的语音转文字功能;

        2.机器翻译

        不同语言之间的相互转换,像有道翻译,腾讯翻译官等;也已经有了比较成熟的应用;

        3.其他领域扩展

        RNN的主要战场就是自然语言处理领域,但RNN的应用场景包括但不限于自然语言处理;RNN还可以应用在时间序列的预测中,比如股票预测,天气预测等;还可以应用在视频行为识别领域,不管是什么领域,只要是我们输入输出数据具有顺序特性,如一句话,一段音频,一段股票价格走势.....RNN都能发挥它的价值;

六 总结

        RNN的结构使它天然能够处理序列结构数据,可以更好的处理序列信息,让前面的输入和后面的输入建立起联系,能捕捉序列中的依赖关系,对许多序列学习任务(如机器翻译、语音识别和情感分析)具有重要意义。e3但RNN也有一定的局限性,由于RNN只能通过隐藏状态套娃式的传递历史信息,长序列中靠前的信息可能会逐渐被遗忘,无法有效的捕捉到序列中较早的关键信息。导致RNN网络的时间序列不能太长;

        同时由于权重共享机制,导致RNN对信息的区分只在时间远近上有差异,在信息的重要性本身上并没有做区分,并没有区分哪些是有用信息,有哪些是无用信息。然而实际语言环境中,不同词对目标的重要性显然是不同的,因此词的重要性,不应该仅仅取决于词和词之间的物理距离,更应该取决于词的重要性和贡献高低;

        这就需要一种网络结构,能够根据词的重要性选择性的对信息进行记忆和舍弃。这个网络就是RNN的变体,LSTM。其通过引入“细胞状态”和三个门控单元,可以将长期记忆纳入隐藏单元的计算,使得有效信息即使离当前输入距离较远,也能够产生较大的影响力;        


http://www.kler.cn/a/461765.html

相关文章:

  • vim 的基础使用
  • 25.1.3
  • 38. 考古学家
  • 运维人员的Go语言学习路线
  • 【数据结构】树链刨分
  • 《Vue3实战教程》34:Vue3状态管理
  • Flutter中进行多平台开发的ip设置
  • HTML5 标签输入框(Tag Input)详解
  • Android Studio学习笔记
  • 我的杂记一
  • 数据中心基础设施管理平台:构建高效、安全与可扩展的基石
  • OpenCV和PyQt的应用
  • 基于JavaWeb的汽车维修保养智能预约系统
  • doris 2.1 -Data Manipulation-Transaction
  • 等价和划分
  • [算法学习笔记] 《Hello算法》第5章 栈与队列
  • javaEE-文件操作和IO-文件
  • Elasticsearch:探索 Elastic 向量数据库的深度应用
  • vue2实现txt文件在线预览
  • 通过服务器推送消息:Websocket和SSE解释
  • Kafka为什么要放弃Zookeeper
  • 医疗实时数仓环境配置与ods层
  • Conda 命令教程
  • 折叠手机突然折翅,折叠屏采购暴跌,苹果挽救或是幻想
  • 一维前缀和,二维前缀和
  • 文章解读与仿真程序复现思路——EI\CSCD\北大核心《基于模型预测控制的掺氢微能源网低碳经济调度 》