当前位置: 首页 > article >正文

小周带你读论文-2之“草履虫都能看懂的Transformer老活儿新整“Attention is all you need(4)

终结篇了

      书接前文:小周带你读论文-2之"草履虫都能看懂的Transformer老活儿新整"Attention is all you need(3) (qq.com)

      本章把Trasfomer剩的一点网络讲完

      上节课我们讲完了attetion的机制,我们再复习一下(这玩意就得反复看,加深记忆)

      我下面再换几张图,换个角度来看,来自于复旦的Qiu Xipeng教授的slide

      首先自注意机制它也不是Transformer才有的,实际上以前也有RNN+self-attention来解决词相关性长距离依赖问题的网络

      如下图所示,我们为了让"The weather is nice today"的"The"去判断它和其他4个词的关系,我们可以让"The"这个向量去分别跟其他每个单词的向量做内积,然后走softmax做归一化之后,


http://www.kler.cn/a/233650.html

相关文章:

  • ubuntu cmake CPack将第三方库进行打包
  • ❤React-JSX语法认识和使用
  • Go开发指南-Gin与Web开发
  • 矩阵的各种计算:乘法、逆矩阵、转置、行列式等——基于Excel实现
  • 43.第二阶段x86游戏实战2-提取游戏里面的lua
  • 高效运维:构建全面监控与自动化管理体系
  • 2024年-视觉AI检测的面试题目总结
  • 如何实现视线(目光)的检测与实时跟踪
  • 《CSS 简易速速上手小册》第5章:CSS 动画与过渡(2024 最新版)
  • 【社交电商】带直播电商功能,可以DIY前端,可以H5和小程序一般商城常用功能齐全
  • C++Linux网络编程day02:select模型
  • 基于完全二叉树实现线段树-- [爆竹声中一岁除,线段树下苦踌躇]
  • 风行智能电视G32Y 强制刷机升级方法,附刷机升级数据MstarUpgrade.bin
  • 【Java八股面试系列】并发编程-并发关键字,线程池
  • Leetcode 337 打家劫舍 III
  • 软件测试学习笔记-使用jmeter进行性能测试
  • ChatGPT高效提问—prompt常见用法(续篇四)
  • Acwing831KMP字符串
  • 【极数系列】Flink集成KafkaSink 实时输出数据(11)
  • 神经网络 | CNN 与 RNN——深度学习主力军
  • Redis篇之过期淘汰策略
  • springboot微信小程序 uniapp学习资料分享系统v9uy4
  • 【大厂AI课学习笔记】【1.5 AI技术领域】(8)文本分类
  • containerd中文翻译系列(二十一)用户命名空间
  • 一次显著的性能提升,从8s到0.7s
  • ClickHouse--02--安装