当前位置：首页 > article >正文

【NLP高频面题 - Transformer篇】什么是缩放点积注意力，为什么要除以根号d？

article 2025/3/1 0:35:38

什么是缩放点积注意力，为什么要除以根号d？

重要性：★★★

Transformer 自注意力机制也被称为缩放点积注意力机制，这是因为其计算过程是先求查询矩阵与键矩阵的点积，再用 $\sqrt{d_k}$ 对结果进行缩放。这样做的目的主要是获得稳定的梯度。

因为当输入信息的维度 d 比较高，会导致 softmax 函数接近饱和区，梯度会比较小。因此，缩放点积模型可以较好地解决这一问题。

NLP 大模型高频面题汇总

NLP基础篇

BERT 模型面

LLMs 微调面

查看全文

http://www.kler.cn/a/471004.html

开源人工智能模型框架：探索与实践

Leetcode打卡：不含特殊楼层的最大连续楼层数

一文讲清楚PostgreSQL分区表

[openGauss 学废系列]-用户和模式的关系以及访问方式

Scala语言的语法

java实验6 J.U.C并发编程

jEasyUI 创建页脚摘要

Linux驱动开发 gpio_get_value读取输出io的电平返回值一直为0的问题

咖啡馆系统｜Java｜SSM｜JSP｜

[Unity Shader] 【游戏开发】Unity基础光照1-光照模型原理

QT中如何限制限制QLineEdit只能输入字母，或数字，或某个范围内数字等限制约束？

26考研资料分享百度网盘

Chrome 浏览器下载安装教程，保姆级教程

linux系统（ubuntu,uos等)连接鸿蒙next(mate60)设备

【prometheus】Pushgateway安装和使用

Devart dotConnect发布全新版本，支持EF Core 9、完全兼容 .NET 9 等！

Ubuntu24.04.1 LTS+Win11双系统安装记录

node.js之---内置模块

信号处理-消除趋势项

VulnHub-Acid(1/100)

【NLP高频面题 - Transformer篇】什么是缩放点积注意力，为什么要除以根号d？

NLP 大模型高频面题汇总

NLP基础篇

【NLP 面试宝典之模型分类】必须要会的高频面题

【NLP 面试宝典之神经网络】必须要会的高频面题

【NLP 面试宝典之主动学习】必须要会的高频面题

【NLP 面试宝典之超参数优化】必须要会的高频面题

【NLP 面试宝典之正则化】必须要会的高频面题

【NLP 面试宝典之过拟合】必须要会的高频面题

【NLP 面试宝典之 Dropout】必须要会的高频面题

【NLP 面试宝典之 EarlyStopping】必须要会的高频面题

【NLP 面试宝典之标签平滑】必须要会的高频面题

【NLP 面试宝典之 Warm up 】必须要会的高频面题

【NLP 面试宝典之置信学习】必须要会的高频面题

【NLP 面试宝典之伪标签】必须要会的高频面题

【NLP 面试宝典之类别不均衡问题】必须要会的高频面题

【NLP 面试宝典之交叉验证】必须要会的高频面题

【NLP 面试宝典之词嵌入】必须要会的高频面题

【NLP 面试宝典之 One-Hot】必须要会的高频面题

…

BERT 模型面

【NLP 面试宝典之 BERT模型】必须要会的高频面题

【NLP 面试宝典之 BERT变体】必须要会的高频面题

【NLP 面试宝典之 BERT应用】必须要会的高频面题

…

LLMs 微调面

【NLP 面试宝典之 LoRA微调】必须要会的高频面题

【NLP 面试宝典之 Prompt】必须要会的高频面题

【NLP 面试宝典之提示学习微调】必须要会的高频面题

【NLP 面试宝典之 PEFT微调】必须要会的高频面题

【NLP 面试宝典之 Chain-of-Thought微调】必须要会的高频面题

…

相关文章：