当前位置: 首页 > article >正文

RNN与Self-Attention

文章目录

1. SimpleRNN

学习视频:https://www.youtube.com/watch?v=Cc4ENs6BHQw&t=0s

  • 对于时序数据,输入输出都不固定,需要many-one、many-many模型,RNN很适合时序数据
    整个RNN 只有一个参数A
    在这里插入图片描述

1.1 h t h_t ht计算

在这里插入图片描述

1.2 激活函数

为什么需要双曲正切函数作为激活函数?
假设输入为0,当矩阵A最大特征值=0.9,则 h 100 h_{100} h100每个元素近似为0;当矩阵A最大特征值=1.2,则 h 100 h_{100} h100每个元素都很大,状态向量会爆炸
在这里插入图片描述

  • 训练参数
    在这里插入图片描述

2. SimpleRNN+Self-Attention

学习链接:https://www.youtube.com/watch?v=Vr4UNt7X6Gw&t=0s

2.1 状态更新

对于SimpleRNN,新的状态 h i + 1 h_{i+1} hi+1 h i h_{i} hi以及 x i + 1 x_{i+1} xi+1有关
引入Self-Attention后,新的状态 h i + 1 h_{i+1} hi+1 c i c_{i} ci以及 x i + 1 x_{i+1} xi+1有关。

每一轮更新状态之前,都会用context vector c看一遍之前所有状态,解决遗忘问题
$c$是已有状态h的加权平均,初始$h_0$为全0向量,可以忽略

在这里插入图片描述

2.2 权重 α α α

用当前状态 h i h_i hi与已有状态作对比,包括与 h i h_i hi自己做对比,得到 i 个 α i个α iα
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


http://www.kler.cn/a/370101.html

相关文章:

  • ZooKeeper 中的 ZAB 一致性协议与 Zookeeper 设计目的、使用场景、相关概念(数据模型、myid、事务 ID、版本、监听器、ACL、角色)
  • Java 8 实战 书籍知识点散记
  • 【Elasticsearch】 Ingest Pipeline `processors`属性详解
  • P8738 [蓝桥杯 2020 国 C] 天干地支
  • js截取video视频某一帧为图片
  • 基于tldextract提取URL里的子域名、主域名、顶级域
  • 设计模式(五)原型模式详解
  • python之爬虫遇到返回内容乱码
  • 2024年10月28日练习(双指针算法)
  • 了解VGG网络并利用PyTorch实现VGG网络
  • 计算服务器:开启科学计算新变革的强大引擎
  • 论文 | PROMPTING GPT-3 TO BE RELIABLE
  • Vue.js 入门指南:从基础知识到核心功能
  • Git 标签管理
  • 安康旅游网站:SpringBoot设计与实现详解
  • .NET使用Moq开源模拟库简化单元测试
  • 数据分析-33-时间序列特征工程及feature-engine库的应用
  • 微信小程序 setData数据量过大的解决与分页加载的实现
  • 目标跟踪算法-卡尔曼滤波详解
  • 洗牌算法(Shuffle Algorithm)Fisher-Yates 洗牌算法详细解读
  • 【ChatGPT】如何通过反向思维改进Prompt的编写
  • GAN原理及代码实现
  • 51单片机完全学习——DS18B20温度传感器
  • 医院信息化与智能化系统(12)
  • 极狐GitLab 发布安全补丁版本17.5.1, 17.4.3, 17.3.6
  • TextHarmony:视觉文本理解与生成的新型多模态大模型