当前位置: 首页 > article >正文

【王树森】RNN模型与NLP应用(9/9):Self-Attention(个人向笔记)

前言

上节课讲到的attention用到了Seq2Seq模型上,而Attention并不局限与Seq2Seq模型,而是可以用在所有RNN模型上。Self-attention在原论文中用到了LSTM上,而本节课做了简单的替换:换成了 Simple RNN。


SimpleRNN + Self-Attention

下面的 h 0 h_0 h0 为初始状态,是一个全0向量

  • 无 Self-Attention 的更新状态:
    在这里插入图片描述
  • 有 Self-Attention 的更新状态:把 h 0 h_0 h0 换成了 c 0 c_0 c0
    在这里插入图片描述
  • 接下来需要计算 c 1 c_1 c1 ,上节课提到 c c c 需要根据 h h h 来计算,而此时 h 0 h_0 h0 为全 0 向量,所以 c 1 c_1 c1 就等于 h 1 h_1 h1
    在这里插入图片描述
  • h 2 h_2 h2 同理:
    在这里插入图片描述
  • 相关性与 c 2 c_2 c2 的计算需要同时包含 h 2 h_2 h2:后面的过程类似
    在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


Summary

  • Self-Attention能很大程度上解决RNN遗忘的问题
  • Self-Attenion和Attention的原理是一样的,但是Self-Attention不局限于Seq2Seq模型上,而是可以应用到所有RNN上
  • 除了避免遗忘,Self-Attention还能帮助关注相关的信息

http://www.kler.cn/news/284439.html

相关文章:

  • Apache Flink 零基础入门(二):开发环境搭建和应用的配置、部署及运行
  • React滚动加载(无限滚动)功能实现
  • 23种设计模式之模版方法模式
  • 向量数据库Milvus源码开发贡献实践
  • UE5学习笔记18-使用FABRIK确定骨骼的左手位置
  • 《C++与新兴数据库技术的完美交互:开启高效数据处理新时代》
  • sort,uniq,wc,awk命令 (数据整理
  • 【软件测试专栏】认识软件测试、测试与开发的区别
  • Linux——命令行文件的管理(创建,复制,删除,移动文件,硬链接与软链接)
  • 纷享销客CRM渠道分销之多维度数据分析介绍
  • STM32 - 笔记3
  • mysql启动失败问题汇总
  • 黑马点评——商户查询缓存(P37店铺类型查询业务添加缓存练习题答案)redis缓存、更新、穿透、雪崩、击穿、工具封装
  • ES(Elasticsearch)可视化界面-浏览器插件
  • python-春游
  • 【Qt窗口】—— 对话框
  • 操作系统面试真题总结(二)
  • Mac下的压缩包和Win看到的不一样怎么办 Mac压缩后Win电脑看文件名会乱码
  • 利用Leaflet.js创建交互式地图:多种形状单个区域绘制
  • 揭秘!糖尿病:从绝望到希望的治愈之路
  • mysql实用系列:coalesce函数的使用
  • 【GIT】idea中实用的git操作,撤回commit,撤回push、暂存区使用
  • 一些好用的网站和api合集
  • 【Python机器学习】NLP词频背后的含义——隐性狄利克雷分布(LDiA)
  • JavaWeb - Maven
  • GMS——利用 ChatGPT 和扩散模型进行制造业革命
  • css-functions-图形函数
  • 08:Logic软件原理图添加元件
  • 【Java设计模式】指挥官模式:轻松编排复杂命令
  • zookeeper命令 及 ACL控制