当前位置: 首页 > article >正文

【Transformer】基本概述

文章目录

提出背景

在这里插入图片描述

在Transformer模型出现之前,循环神经网络(RNN)及其变体,如长短期记忆网络(LSTM)和门控循环单元(GRU),是处理序列数据的主流方法。但是RNN系列模型存在一些固有的问题,如难以并行化处理、对长距离依赖的捕捉能力有限等。为了解决这些问题,Transformer模型应运而生,于2017年由Vaswani等人在2017年提出,并发表在NeurlPS上。

与RNN系列相比Transformer的优势

  • 并行化处理:Transformer模型通过自注意力机制,可以在处理序列数据时实现高度的并行化,因为每个位置的计算不依赖于前一个位置的隐藏状态,这与RNN系列模型形成鲜明对比。

  • 长距离依赖:自注意力机制使得Transformer模型能够有效地捕捉序列中的长距离依赖关系,而RNN系列模型在这方面表现较差,尤其是当序列非常长时。

  • 灵活性和可扩展性:Transformer模型不依赖于序列的顺序,因此在处理不同长度的序列时更加灵活。此外,它还可以轻松地扩展到更大的数据集和更复杂的任务。

核心思想—注意力机制

Transformer的核心思想,就是抛弃传统的递归(recurrence)或者卷积(convolutions)模块,完全采用注意力机制(attention mechanisms),允许模型在处理序列的每个元素时,都能考虑到序列中的所有其他元素,因此,这种机制就使得模型能够更好地捕捉序列内部的长距离依赖关系。

流程解析

Transformer模型的结构主要由编码器(Encoder)和解码器(Decoder)两大部分组成。

  • 编码器由多个相同的层堆叠而成,每层包含两个主要部分:多头自注意力机制(Multi-Head Self-Attention)和前馈神经网络(Feed-Forward Neural Network)。但也不要忘了还有normalization和residual connection部分,这两部分也是非常关键。
  • 解码器结构与编码器类似,区别主要是两点:在多头自注意力机制中增加了Masked策略(也是后来decoder-only大模型方法实现next-prediction的核心操作),以及增加了一个额外的cross-attention机制,用于关注编码器的输出。

下图是原始论文中的结构图,我把它按照重要程度划分为了7个部分,其中红色的前五个部分最为重要(面试官最喜欢考验候选人的部分),必须要深入理解和掌握,蓝色的后两个部分是相对次要但也要深入理解。

后续我对这个7个部分分别进行讲解,并结合代码进行深入理解。

在这里插入图片描述

参考资料

  • [1] https://www.bilibili.com/video/BV1FH4y157ZC/?share_source=copy_web&vd_source=79b1ab42a5b1cccc2807bc14de489fa7

http://www.kler.cn/a/287624.html

相关文章:

  • mac配置 iTerm2 使用lrzsz与服务器传输文件
  • 数据仓库复用性:业务需求复用性设计
  • 构建优雅、高效的 Nodejs 命令行工具 - Archons
  • 虚拟拨号技术(GOIP|VOIP)【基于IP的语音传输转换给不法分子的境外来电披上一层外衣】: Voice over Internet Protocol
  • Mongodb相关内容
  • macos arm 本地/docker/本地k8s 安装jupyterhub 并登陆
  • iPhone出现4013错误的和解决方案分享
  • AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.08.10-2024.08.15
  • 使用twilio向手机发短信做监控报警
  • 算法之哈希表
  • 地级市地理相邻矩阵(地级市名称版、行政区划代码版)
  • Microsoft DirectML 现在支持 Copilot+ PC 和 WebNN
  • 在繁忙工作环境中提升开发效率:JetBrains IntelliJ IDEA 的应用
  • Python中的函数艺术:解锁高效编程的秘密
  • 零差云控电机ubuntu+IGH调试记录
  • 【Linux】POSIX版本 信号量
  • 质量属性场景-系统架构师(六十)
  • Datawhale X 李宏毅苹果书 AI夏令营 Task3打卡
  • 后端开发刷题 | 面试篇3
  • DASK==延迟对象delayed
  • QT QGraphicsView实现预览图片显示缩略图功能
  • Protocol Buffers
  • java打包jar后读取依赖jar包中的文件资源,支持读取jlink打包的模块镜像中读取
  • axure9树形元件节点的添加
  • SQL-多表查询
  • 深入理解Java集合:如何使用for增强循环和泛型类型转换