当前位置: 首页 > article >正文

Transformer算法7个面试常见问题

1.Transformer为何使用多头注意力机制?(为什么不使用一个头)

英文论文中是这么说的:
Multi-head attention allows the model to jointly attend to information from different representation subspaces at different positions.
翻译:

多头注意使模型能够共同关注来自不同位置的不同表征子空间的信息。
直观上讲,多头的注意力有助于网络捕捉到更丰富的特征/信息。可以类比CNN中同时使用多个滤波器的作用。

举例:

       当你浏览网页的时候,你可能在颜色方面更加关注深色的文字,而在字体方面会去注意大的、粗体的文字。这里的颜色和字体就是两个不同的表示子空间。同时关注颜色和字体,可以有效定位到网页中强调的内容。使用多头注意力,也就是综合利用各方面的信息/特征。

2.对缩放因子的解释:

  • 1.为什么要除以一个缩放因子?
    (1)论文解释为:

    我们怀疑,对于很大的dk值,点积大幅度增长,将softmax函数推向具有极小梯度的区域。为了抵消这种影响,我们缩小点积。
    

(2)我们理解为:
因为softmax的本质是一个e为底的指数,会随着指数的变大变化率很明显,例如当点积为100,200,500,那么e的500次方会占绝对权重,从而影响结果不准确。

  • 2.那么要除以一个多大的缩放因子呢?

(1)论文脚注解释为:

为了说明点积变大的原因,假设q和k的分量是独立随机的均值为0和方差为1的变量。然后他们的点积                           均值为0,方差为dk

(2)我们理解为:
假设q和k的分量是独立随机的均值为0和方差为1的变量,也就是说qi和ki是均值为0和方差为1,那么qiki也是均值为0,方差为1。所以qk的均值为0,方差为dk。

WechatIMG27.png

3.Decoder阶段的多头自注意力和encoder的多头自注意力有什么区别?

答:Decoder有两层mha,encoder有一层mha,Decoder的第二层mha是为了转化输入与输出句长,Decoder的请求q与键k和数值v的倒数第二个维度可以不一样,但是encoder的qkv维度一样。

4.Transformer的并行化提现在哪个地方?

答:Transformer的并行化主要体现在self-attention模块,在Encoder端Transformer可以并行处理整个序列,并得到整个输入序列经过Encoder端的输出,但是rnn只能从前到后的执行

5.Decoder端可以做并行化吗?

训练的时候可以,但是交互的时候不可以

6.bert的mask为何不学习transformer在attention处进行屏蔽score的技巧?

答:BERT和transformer的目标不一致,bert是语言的预训练模型,需要充分考虑上下文的关系,而transformer主要考虑句子中第i个元素与前i-1个元素的关系。

7、简单介绍一下Transformer的位置编码?有什么意义和优缺点?

     Transformer 模型的核心是自注意力机制,它允许模型在处理序列数据时考虑序列中所有位置的信息。然而,传统的循环神经网络(RNN)和长短期记忆网络(LSTM)等模型能够自然地处理序列数据的时间信息,因为它们在处理序列时会逐个元素地传递状态。Transformer 模型则需要一种机制来模拟这种时间信息,这就是位置编码(Positional Encoding)的作用。
位置编码的意义:
1.时间信息的引入:位置编码为模型提供了序列中每个元素的位置信息,使得模型能够区分序列中的不同位置。
2.保持序列顺序:在自注意力机制中,位置编码帮助模型保持输入序列的顺序性,这对于理解语言结构至关重要,
位置编码的方法:
在原始的 Transformer 论文中,位置编码是通过以下方式添加到词嵌入(Word Embedding)中的:

其中,pos是词在序列中的位置,i是维度索引,dmodel 是模型的维度大小。这种方式生成的位置编码是固定的,并且随着位置的增加,编码的周期性变化。

优缺点:
优点:
灵活性:位置编码允许模型在处理不同长度的序列时保持灵活性
并行化:由于位置编码是预先定义的,它可以与词嵌入一起并行处理,这提高了模型的计算效率。
缺点:
固定模式:位置编码是预先定义的,可能不会很好地适应所有类型的序列数据。可解释性:位置编码的周期性模式可能不如 RNN 中的递归状态直观,这可能会影响模型的可解释性。
随着研究的发展,出现了一些改进的位置编码方法,例如相对位置编码(RelativePositionaEncoding),它通过考虑词与词之间的相对位置关系来增强模型对序列的理解能力。这些方法在某些任务中显示出比传统位置编码更好的性能。


http://www.kler.cn/a/325035.html

相关文章:

  • 二十三种设计模式-装饰器模式
  • 什么是三高架构?
  • 1.写在前面
  • Rust实现内网穿透工具:从原理到实现
  • 深度学习 Pytorch 基本优化思想与最小二乘法
  • 【LLM-RL】DeepSeekMath强化对齐之GRPO算法
  • python中的assert语句
  • Android TextView对URL识别
  • Kafka技术详解[5]: 集群启动
  • Vue 自定义组件实现 v-model 的几种方式
  • ubuntu20.04编译安装opencv-4.9.0的cuda版本
  • RTE大会报名丨 重塑语音交互:音频技术和 Voice AI,RTE2024 技术专场第一弹!
  • 「漏洞复现」某徳知识产权管理系统 UploadFileWordTemplate 文件上传漏洞
  • SAP调用发起泛微OA流程
  • MySQL之索引基本知识
  • 大数据是不是需要用很多ip
  • js逆向——webpack实战案例(一)
  • Java-数据类型与变量
  • Cholesky分解
  • Java 常用的一些Collection的实现类
  • 服务器数据恢复—raid磁盘故障导致数据库文件损坏的数据恢复案例
  • JNI动态注册
  • 【AI大模型】Function Calling
  • 17年数据结构考研真题解析
  • prompt攻击与防范
  • Arrays常用API