【NLP高频面题 - Transformer篇】Transformer编码器有哪些子层?
Transformer编码器有哪些子层?
重要性:★
Transformer 解码器由 3 个子层组成:带掩码的多头注意力层、多头注意力层、前馈网络层。
Transformer 两个解码器串联结构如图所示:
Transformer 解码器的解码有以下步骤:
(1)首先,我们将解码器的输入转换为嵌入矩阵,然后将位置编码加入其中,并将其作为输入送入底层的解码器(解码器 1)。
(2)解码器收到输入,并将其发送给带掩码的多头注意力层,生成注意力矩阵 M。
(3)然后,将注意力矩阵 M 和编码器输出的特征值 R 作为多头注意力层(编码器−解码器注意力层)的输入,并再次输出新的注意力矩阵。
(4)把从多头注意力层得到的注意力矩阵作为输入,送入前馈网络层。前馈网络层将注意力矩阵作为输入,并将解码后的特征作为输出。
(5)最后,我们把从解码器 1 得到的输出作为输入,将其送入解码器 2。
(6)解码器 2 进行同样的处理,并输出目标句的特征。
NLP 大模型高频面题汇总
NLP基础篇
-
【NLP 面试宝典 之 模型分类】 必须要会的高频面题
-
【NLP 面试宝典 之 神经网络】 必须要会的高频面题
-
【NLP 面试宝典 之 主动学习】 必须要会的高频面题
-
【NLP 面试宝典 之 超参数优化】 必须要会的高频面题
-
【NLP 面试宝典 之 正则化】 必须要会的高频面题
-
【NLP 面试宝典 之 过拟合】 必须要会的高频面题
-
【NLP 面试宝典 之 Dropout】 必须要会的高频面题
-
【NLP 面试宝典 之 EarlyStopping】 必须要会的高频面题
-
【NLP 面试宝典 之 标签平滑】 必须要会的高频面题
-
【NLP 面试宝典 之 Warm up 】 必须要会的高频面题
-
【NLP 面试宝典 之 置信学习】 必须要会的高频面题
-
【NLP 面试宝典 之 伪标签】 必须要会的高频面题
-
【NLP 面试宝典 之 类别不均衡问题】 必须要会的高频面题
-
【NLP 面试宝典 之 交叉验证】 必须要会的高频面题
-
【NLP 面试宝典 之 词嵌入】 必须要会的高频面题
-
【NLP 面试宝典 之 One-Hot】 必须要会的高频面题
-
…