当前位置: 首页 > article >正文

【NLP高频面题 - Transformer篇】什么是缩放点积注意力,为什么要除以根号d?

什么是缩放点积注意力,为什么要除以根号d?

重要性:★★★

Transformer 自注意力机制也被称为缩放点积注意力机制,这是因为其计算过程是先求查询矩阵键矩阵的点积,再用 d k \sqrt{d_k} dk 对结果进行缩放。这样做的目的主要是获得稳定的梯度。

因为当输入信息的维度 d 比较高,会导致 softmax 函数接近饱和区,梯度会比较小。因此,缩放点积模型可以较好地解决这一问题。


NLP 大模型高频面题汇总

NLP基础篇
BERT 模型面
LLMs 微调面

http://www.kler.cn/a/471004.html

相关文章:

  • PDFMathTranslate: Star13.8k,一款基于AI的PDF文档全文双语翻译PDF文档全文双语翻译,保留格式神器,你应该需要它
  • 基于RK3568/RK3588大车360度环视影像主动安全行车辅助系统解决方案,支持ADAS/DMS
  • 如何打开/处理大型dat文件?二进制格式.dat文件如何打开?Python读取.dat文件
  • 【算法】查找与排序
  • 数学建模入门——描述性统计分析
  • nginx-灰度发布策略(split_clients)
  • 开源人工智能模型框架:探索与实践
  • Leetcode打卡:不含特殊楼层的最大连续楼层数
  • 一文讲清楚PostgreSQL分区表
  • [openGauss 学废系列]-用户和模式的关系以及访问方式
  • Scala语言的语法
  • java实验6 J.U.C并发编程
  • jEasyUI 创建页脚摘要
  • Linux驱动开发 gpio_get_value读取输出io的电平返回值一直为0的问题
  • 咖啡馆系统|Java|SSM|JSP|
  • [Unity Shader] 【游戏开发】Unity基础光照1-光照模型原理
  • QT中如何限制 限制QLineEdit只能输入字母,或数字,或某个范围内数字等限制约束?
  • 26考研资料分享 百度网盘
  • Chrome 浏览器下载安装教程,保姆级教程
  • linux系统(ubuntu,uos等)连接鸿蒙next(mate60)设备
  • 【prometheus】Pushgateway安装和使用
  • Devart dotConnect发布全新版本,支持EF Core 9、完全兼容 .NET 9 等!
  • Ubuntu24.04.1 LTS+Win11双系统安装记录
  • node.js之---内置模块
  • 信号处理-消除趋势项
  • VulnHub-Acid(1/100)