当前位置: 首页 > article >正文

layernorm笔记

文章目录

  • layer norm的解释
    • 二维
    • 三维
  • batchnorm和layernorm主要的区别
  • 为什么要在序列转录模型中使用layer norm?

layer norm的解释

二维

红色为batchnorm,蓝色为layer norm
batchnorm对每一个特征算均值和方差
layer norm对每一个批次算均值和方差
在这里插入图片描述

三维

红色为batchnorm,蓝色为layer norm
batchnorm对每个句子的第K个词做归一化
layer norm对每个句子的每个词做归一化
在这里插入图片描述

batchnorm和layernorm主要的区别

在算均值和方差的上面

batchnorm

在这里插入图片描述
理论算矩阵中阴影面积中的方差和均值,实际算整个矩阵中的方差和均值阴影部分的长度为小批量中的句子长度,用0补全

  • 均值和方差波动比较大

  • 预测时,如果预测样本的长度超过训练样本的最大长度,使用训练的均值和方差效果可能不是那么好
    layernorm
    在这里插入图片描述
    矩阵中阴影部分的面积算方差和均值
    每个样本(每个句子里面自己所有的词)自己算均值和方差,不需要存一个全局的均值和方差,因为是对每个样本做的norm。

为什么要在序列转录模型中使用layer norm?

在时序的样本中,每个样本的长度可能发生变化
源自李沐论文讲解


http://www.kler.cn/news/336662.html

相关文章:

  • 富格林:揭晓黑幕躲避交易暗箱
  • Python 语言学习——应用1.2 数字图像处理(第二节,变换)
  • 基于LORA的一主多从监测系统_框架搭建
  • ElasticSearch备考 -- Update by query Reindex
  • 富贵险中求,我推荐你读这4本书
  • HTB:Funnel[WriteUP]
  • 【Ubuntu】PlantUML工具 | 安装 | 语法 | 使用工具画序列图
  • 深度学习应用
  • 基于MySQL生成列实现逻辑删除条件下的字段唯一
  • 【艾思科蓝】Java Web开发实战:从零到一构建动态网站
  • Spring和Spring Boot事务讲解和案例示范
  • Chrome浏览器调用ActiveX控件--allWebOffice控件
  • IO重定向
  • Java 中 MySQL 自增 ID 的与案例分析
  • 【unity进阶知识7】对象池的使用,如何封装一个对象池管理器
  • C#基础语法
  • 如何筛选网站有多少真实ip访问
  • Spring MVC的运行流程详解
  • Stable Diffusion的核心插件—ControlNet!万字长文解读!
  • AtCoder ABC374 A-D题解