当前位置：首页 > article >正文

AI大模型开发原理篇-5：循环神经网络RNN

article 2025/2/1 1:07:51

神经概率语言模型NPLM也存在一些明显的不足之处:模型结构简单，窗口大小固定，缺乏长距离依赖捕捉，训练效率低，词汇表固定等。为了解决这些问题，研究人员提出了一些更先进的神经网络语言模型，如循环神经网络、长短期记忆网络、门控循环单元（GRU）和Transformer等。这些模型能够捕捉长距离依赖，处理变长序列，同时具有更强的表达能力和泛化能力。

RNN 的基本概念

RNN 的主要特点是信息的循环传递。与标准神经网络不同，RNN 在每一时刻的输出不仅依赖于当前的输入，还依赖于前一个时刻的隐藏状态（或称为记忆）。因此，RNN 适合处理序列数据，因为它能通过隐藏层的状态将历史信息带入到模型中。

RNN 的优缺点

优点：

序列建模能力：RNN 能够处理和建模序列数据中的时间依赖关系，适用于自然语言处理、语音识别、时间序列预测等任务。
参数共享：RNN 的所有时刻共享相同的参数，这使得它能够在处理不同长度的序列时保持参数的共享，减少了计算开销。

缺点：

梯度消失和梯度爆炸：在训练过程中，当序列长度较长时，RNN 面临梯度消失或爆炸的问题。这会使得模型难以捕捉到远距离依赖。
记忆有限：标准的 RNN 在处理长序列时会逐渐丧失对早期输入的记忆，这使得它对于长距离依赖的建模效果较差。

RNN 的应用

RNN 主要应用于以下任务：

自然语言处理（NLP）：文本生成、机器翻译、情感分析、命名实体识别（NER）等。
时间序列预测：如股票价格预测、气象预测、交通流量预测等。
语音识别：RNN 可用于语音信号的建模，进行语音到文本的转换。
视频分析：RNN 还可以应用于视频数据的处理，如动作识别。

解决 RNN 问题的改进模型：LSTM 和 GRU

传统的 RNN 在处理长序列时容易遇到梯度消失或梯度爆炸的问题，因此在实际应用中，长短期记忆网络（LSTM） 和 门控循环单元（GRU） 被提出，以解决这一问题。

LSTM（Long Short-Term Memory）

LSTM 是一种特殊的 RNN 变体，它通过引入门控机制来避免梯度消失问题。LSTM 使用了三个门：

遗忘门（Forget Gate）：决定丢弃多少过去的信息。
输入门（Input Gate）：决定当前输入有多少信息进入记忆单元。
输出门（Output Gate）：决定当前记忆有多少信息影响输出。

LSTM 通过这些门控机制来控制信息流动，能够长期保留重要的信息，解决了传统 RNN 在长序列建模中的问题。

GRU（Gated Recurrent Unit）

GRU 是 LSTM 的一个简化版本。它只有两个门：

更新门（Update Gate）：决定多少历史信息需要保留。
重置门（Reset Gate）：决定当前输入对隐藏状态的影响。

与 LSTM 相比，GRU 在结构上更简单，但在许多应用中能够达到与 LSTM 相似的效果。

RNN 的训练：反向传播通过时间（BPTT）

RNN 的训练方法是通过 反向传播通过时间（Backpropagation Through Time, BPTT），即通过计算梯度并进行参数更新来训练模型。BPTT 是标准反向传播算法的延伸，它将序列中的每个时间步展开，并将误差反向传播至前面的每个时刻。

训练步骤：

前向传播：计算每个时间步的输出 yty_tyt 和隐藏状态 hth_tht。
计算损失：通常使用交叉熵损失函数来衡量预测值与真实值之间的差距。
反向传播：将损失通过时间反向传播，计算梯度并更新模型参数。

http://www.kler.cn/a/526560.html

相关文章：

【C++】List的模拟实现

《深度揭秘：TPU张量计算架构如何重塑深度学习运算》

Flink中的时间和窗口

Origami Agents：AI驱动的销售研究工具，助力B2B销售团队高效增长

从0开始使用面对对象C语言搭建一个基于OLED的图形显示框架（绘图设备封装）

【Leetcode刷题记录】166. 分数到小数

计算机网络之计算机网络分层结构

【RocketMQ 存储】- RocketMQ存储类 MappedFile

INCOSE需求编写指南-附录 A: 参考文献

鸟瞰欧洲（意境欧洲）第一季

尚硅谷spring框架视频教程——学习笔记一（IOC、AOP）

【视频+图文详解】HTML基础3-html常用标签

如何在本地部署deepseek-r1模型【详细步骤】

Java8_StreamAPI

LruCache实现

【gRPC-gateway】option定义规则及HttpBody响应

leetcode——翻转二叉树（java）

【网络】3.HTTP(讲解HTTP协议和写HTTP服务)

《Windows 11轻松设置：一键优化系统，提升电脑效率》

Three.js实现3D动态心形与粒子背景的数学与代码映射解析

变量声明是否可以放在语句之后?变量声明？声明变量一定需要指定类型吗?函数范围快捷使用临时变量?

低代码产品插件功能一览

火语言RPA--Http请求

《Origin画百图》之同心环图

大数据相关职位职业进阶路径

【重生之我在学习C语言指针详解】