当前位置: 首页 > article >正文

深度学习系列——RNN/LSTM/GRU,seq2seq/attention机制

1、RNN/LSTM/GRU可参考:

https://zhuanlan.zhihu.com/p/636756912

(1)对于这里面RNN的表示中,使用了输入x和h的拼接描述,其他公式中也是如此

(2)各符号图含义如下

2、关于RNN细节,seq2seq以及attention机制的描述,参考:

https://zhuanlan.zhihu.com/p/28054589

注意:这里补充了对于RNN,UVW三个矩阵的使用细节,很多喜欢使用下面这张图

另外,seq2seq中decoder,attention的更新机制没有说清楚(其实就是梯度下降更新权重即可),若使用attention机制,则h0'没有说清楚(需要看下源码部分),对于lstm的h和c以及x序列没有说清楚(拼接后作为decoder每个lstm的输入)。

可以直接参考pytorch官方实践:

https://pytorch.org/tutorials/intermediate/seq2seq_translation_tutorial.htmlhttps://github.com/pytorch/tutorials/blob/main/intermediate_source/seq2seq_translation_tutorial.py

官方代码中,对于GPU模块的output和hidden说明如下


http://www.kler.cn/news/365707.html

相关文章:

  • 借助Agent让大模型应用思考、决策并执行任务
  • AIGC底层技术揭秘
  • 【2024CANN训练营第二季】使用华为云体验AscendC_Sample仓算子运行
  • 【AI学习】Mamba学习(十二):深入理解S4模型
  • Mybatis mapper文件 resultType和resultMap的区别
  • webpack面试笔记(一)
  • AI学习指南自然语言处理篇-Transformer模型的编码器-解码器结构
  • OpenCV通道拆分:深入理解图像处理
  • Swift 是一种由苹果公司开发的强大而直观的编程语言,主要用于开发 iOS、macOS、watchOS 和 tvOS 等苹果平台的应用程序。
  • Spring Boot:植物健康监测的智能解决方案
  • Spring Boot框架下的Java多线程
  • 【继承】讲解
  • Halcon图像颜色通道拆分合并与四则运算
  • Matlab中实现智能优化算法的平均排序图
  • Redis对象共享池,性能优化小细节
  • 设计模式(七)桥接模式详解
  • Linux之实战命令53:mtr应用实例(八十七)
  • 将获取的数据存储到Excel文件中
  • 动态规划之子数组系列(下)
  • 分行或者分列计算数组中各元素的累积numpy.cumproduct()
  • vue中标签的ref和id的用法和区别优缺点
  • UE5蓝图中忽略触发区域进行碰撞
  • 【Java】输入十个整数,从小到大输出
  • ATom:2016-2018 年来自 CAPS 仪器的云和粗气溶胶测量数据
  • 【C++篇】栈的层叠与队列的流动:在 STL 的韵律中探寻数据结构的优雅之舞
  • 深度学习技术演进:从 CNN、RNN 到 Transformer 的发展与原理解析