当前位置: 首页 > article >正文

【机器学习基础】Transformer学习

Transformer学习

  • 梯度消失
  • FeedForward层

激活函数的主要作用是在网络中加入非线性变换

梯度消失

梯度爆炸

FeedForward层

Transformer结构:
Transformer结构主要分为两大部分:

  • 一是Encoder层结构:Encoder 的输入由 Input Embedding 和 Positional Embedding 求和输入Multi-Head-Attention,然后又做了一个ADD&Norm,再通过Feed Forward进行输出
  • 另一个则是Decoder层结构

在这里插入图片描述
FeedForward的输入:是Multi-Head Attention的输出做了残差连接和Norm之后得数据,然后FeedForward做了两次线性线性变换,为的是更加深入的提取特征。
在这里插入图片描述
它由两个线性变换组成,中间有一个 ReLU 激活
在Multi-Head Attention中,主要是进行矩阵乘法,即都是线性变换,而线性变换的学习能力不如非线性变换的学习能力强,FeedForward的计算公式如下:max相当于Relu


http://www.kler.cn/news/327866.html

相关文章:

  • CATIA风扇
  • 数据可视化分析系统-解锁企业信息的利器
  • 小徐影院:Spring Boot技术下的影院革新
  • SOMEIP_ETS_143: SD_Request_non_existing_ServiceID
  • 完整网络模型训练(一)
  • c语言实例
  • GWAS分析中显著位点如何注释基因:excel???
  • Ubuntu22.04安装VMware Tools
  • Autosar CP系列:传感器/执行器设计模式
  • Python机器学习:数据预处理与清洗的打开方式
  • wordpress Contact form 7发件人邮箱设置
  • 大数据、人工智能、云计算、物联网、区块链序言【大数据导论】
  • 【Linux】进程+权限管理+软硬链接+其他命令
  • 【网络安全】PII:接口未授权访问敏感数据
  • Leecode热题100-48.旋转图像
  • Java基础(Arrays工具类)(asList()方法)(详细)
  • SpringBoot实现社区医院数据集成解决方案
  • 【C++】I/O流的使用介绍
  • SpringCloud-Alibaba第二代微服务快速入门
  • TCP编程:从入门到实践
  • vscode中文插件安装后不起作用
  • IoT网关的主要功能有哪些?天拓四方
  • 2025考研,报名和初试时间定了!
  • 机器学习学习笔记-20240927
  • ResNet50V2:口腔癌分类
  • 防反接电路设计
  • spark计算引擎-架构和应用
  • linux修改命令别名的方式
  • 【学习笔记】手写 Tomcat 六
  • 每天五分钟深度学习框架pytorch:激活函数在神经网络中的应用