当前位置: 首页 > article >正文

DeepNet :Scaling Transformers to 1000 Layer

DeepNet :Scaling Transformers to 1000 Layer

  • Introduction
  • TL;DR for Practitioners
  • Experiment

Introduction

作者提出了一种简单且高效的方法稳定的提升了Transformer 的深度,这种方法是一种新的残差连接的方式(DeepNorm),它结合了以前的Post-LN的高表现与Pre-LN的稳定性的优点。通过这种方法作者把Transformer的层数提升了一个数量级。

作者还提到 200 层 3.2B的参数要outperform 48层12B的参数的模型 5个点。
在这里插入图片描述

近年来大模型是一个趋势,参数量从million 到 billion 再到 trillions。尽管有着巨大的参数,但是他们的深度都被模型性训练不稳定所制约。

作者还提到大模型训练更深层次的网络不稳定的原因可能是exploding model update,本人理解为 大量的更新参数 可能会陷入局部最优。

TL;DR for Practitioners

在这里插入图片描述
上述图片为deepnorm的伪代码,其中以Post-LN为基础,给 x 加一个alpha权重,然后对ffn,v_projection, out_projection 与 q_projection 和k_projection分别采用不同的初始化方法,区别是gain参数,其中gain参数为一个可选的比例因子。
在这里插入图片描述
alpha 与beta的选择参考如下:

N-layer encoder, M-layer decoder

在这里插入图片描述

Experiment

在这里插入图片描述


http://www.kler.cn/a/3620.html

相关文章:

  • Visual Studio2019调试DLL
  • 特殊类设计
  • 深入解析人工智能中的协同过滤算法及其在推荐系统中的应用与优化
  • 第五篇 vue3 ref 与 reactive 对比
  • 2025年PHP面试宝典,技术总结。
  • 在K8S中,如果后端NFS存储的IP发送变化如何解决?
  • GPT体验
  • realloc的补充 柔性数组
  • 蓝桥杯刷题冲刺 | 倒计时15天
  • Verilog之小规模经典电路设计
  • Linux基础知识点总结
  • OpenMV快速上手 | OpenMV硬件版本概述及HelloWorld
  • C/C++内存管理
  • 队列-我的基础算法刷题之路(六)
  • TCP/IP socket
  • 什么是Java的垃圾回收机制?
  • 算法:贪婪算法、分而治之
  • 数学原理—嵌入矩阵
  • 【密码学复习】第四讲分组密码(三)
  • 【HTML系列】第一章 · HTML入门
  • Linux:centos内核优化详解
  • java.sql.Date和java.util.Date的区别
  • 多线程代码案例-阻塞队列
  • SpringBoot系列 logback-spring日志配置使用记录以及解决依赖包冲突问题
  • python基础语法(下)
  • Echarts实现图表自适应屏幕分辨率