当前位置：首页 > article >正文

【王树森】RNN模型与NLP应用(9/9)：Self-Attention（个人向笔记）

article 2025/3/11 15:49:29

前言

上节课讲到的attention用到了Seq2Seq模型上，而Attention并不局限与Seq2Seq模型，而是可以用在所有RNN模型上。Self-attention在原论文中用到了LSTM上，而本节课做了简单的替换：换成了 Simple RNN。

SimpleRNN + Self-Attention

下面的 $h_0$ 为初始状态，是一个全0向量

无 Self-Attention 的更新状态：
有 Self-Attention 的更新状态：把 $h_0$ 换成了 $c_0$
接下来需要计算 $c_1$ ，上节课提到 $c$ 需要根据 $h$ 来计算，而此时 $h_0$ 为全 0 向量，所以 $c_1$ 就等于 $h_1$ ：
$h_2$ 同理：
相关性与 $c_2$ 的计算需要同时包含 $h_2$ ：后面的过程类似

在这里插入图片描述

Summary

Self-Attention能很大程度上解决RNN遗忘的问题
Self-Attenion和Attention的原理是一样的，但是Self-Attention不局限于Seq2Seq模型上，而是可以应用到所有RNN上
除了避免遗忘，Self-Attention还能帮助关注相关的信息

http://www.kler.cn/a/284439.html

相关文章：

Apache Flink 零基础入门（二）：开发环境搭建和应用的配置、部署及运行

React滚动加载（无限滚动）功能实现

23种设计模式之模版方法模式

向量数据库Milvus源码开发贡献实践

UE5学习笔记18-使用FABRIK确定骨骼的左手位置

《C++与新兴数据库技术的完美交互：开启高效数据处理新时代》

sort,uniq,wc,awk命令（数据整理

【软件测试专栏】认识软件测试、测试与开发的区别

Linux——命令行文件的管理（创建，复制，删除，移动文件，硬链接与软链接）

纷享销客CRM渠道分销之多维度数据分析介绍

STM32 - 笔记3

mysql启动失败问题汇总

黑马点评——商户查询缓存（P37店铺类型查询业务添加缓存练习题答案）redis缓存、更新、穿透、雪崩、击穿、工具封装

ES(Elasticsearch)可视化界面-浏览器插件

python-春游

【Qt窗口】—— 对话框

操作系统面试真题总结（二）

Mac下的压缩包和Win看到的不一样怎么办 Mac压缩后Win电脑看文件名会乱码

利用Leaflet.js创建交互式地图：多种形状单个区域绘制

揭秘！糖尿病：从绝望到希望的治愈之路