当前位置: 首页 > article >正文

transformer bert 多头自注意力

在这里插入图片描述
输入的(a1,a2,a3,a4)是最终嵌入,是一个(512,768)的矩阵;而a1是一个token,尺寸是768
在这里插入图片描述
a1通过Wq权重矩阵,经过全连接变换得到查询向量q1;a2通过Wk权重矩阵得到键向量k2;q和k点乘就是值a12,a12就是a2对于a1的注意力值
在这里插入图片描述

依次得到a1,1,a1,2,a1,3,a1,4注意力值,都是其他token相对于a1 token的注意力
在这里插入图片描述

此时(a1,1,a1,2,a1,3,a1,4)不是概率分布,需要经过softmax呈概率分布向量(a’1,1,a’1,2,a’1,3,a’1,4),a’1,1等都是值
在这里插入图片描述

此时,再把每个a经过v权重矩阵得到v1,v2,v3,v4向量
在这里插入图片描述

a’1,1×v1+a’1,2×v2+a’1,3×v3+a’1,4×v4=b1向量,b1是个768维向量,是a1的自注意力向量,综合了该token与其他所有tokens之间的关系

之后每个a都这么得到自己的自注意力向量,然后组合成(512,768)


http://www.kler.cn/a/585486.html

相关文章:

  • Linux ECM子网掩码常见问题排查
  • Jenkins 集成DingDing 推送
  • qt+opengl 播放yuv视频
  • 类和对象:
  • 【服务器知识】Nginx路由匹配规则说明
  • Kotlin关键字`when`的详细用法
  • NLP技术介绍
  • SpringBoot + ResponseBodyEmitter 实时异步流式推送,优雅!
  • FreeRTOS之信号量
  • GaussDB高安全—全密态数据库
  • Git常用操作之GitLab
  • 【MySQL】第十八弹---数据库管理基础:视图操作与用户权限管理指南
  • 芯谷D8563TS实时时钟/日历芯片详解可替代PCF8563
  • 【Java 基础(人话版)】进制转换
  • 爬虫基础之爬取豆瓣同城信息(保存为csv excel 数据库)
  • 【计算机网络】第八版和第七版的主要区别,附PDF
  • Chatbox通过百炼调用DeepSeek
  • Qt项目中集成第三方模块的.pri文件
  • hadoop集群配置-ssh无密登陆
  • 数据结构-栈(详解)