当前位置: 首页 > article >正文

Transformer和BERT的区别

Transformer和BERT的区别比较表:

两者的位置编码:

为什么要对位置进行编码?
Attention提取特征的时候,可以获取全局每个词对之间的关系,但是并没有显式保留时序信息,或者说位置信息。就算打乱序列中token的顺序,最后所得到的Attention结果也不会变,这会丢失语言中的时序信息,因此需要额外对位置进行编码以引入时序信息。

Position Embedding in Transformer
在Transformer中,位置编码是由sin /cos sin/cossin/cos函数生成的固定值。

具体做法:用不同频率的正余弦函数对位置信息进行编码,位置编码向量的维度与文本编码向量的维度相同,即dmodeld_{model}dmodel。因此二者可以直接相加作为token最终的编码向量。

pos表示位置,i 表示所在维度。

即使测试集中某些样本超出了最大文本长度,这种编码方式仍然可以获得有效的相对位置表示。

Position Embedding in BERT
在BERT中,与一般的词嵌入编码类似,位置编码也是随机生成且可训练的,维度为[seq_length, width],其中seq_length代表序列长度,width代表每一个token对应的向量长度。

从实现上可以看到,BERT中将位置编码创建为一个tensorflow变量,并将其broadcast到与词嵌入编码同维度后相加。

with tf.control_dependencies([assert_op]):
      full_position_embeddings = tf.get_variable(
          name=position_embedding_name,
          shape=[max_position_embeddings, width],
          initializer=create_initializer(initializer_range))

      # 这里position embedding是可学习的参数,[max_position_embeddings, width]
      # 但是通常实际输入序列没有达到max_position_embeddings
      # 所以为了提高训练速度,使用tf.slice取出句子长度的embedding
      position_embeddings = tf.slice(full_position_embeddings, [0, 0],
                                     [seq_length, -1])
      num_dims = len(output.shape.as_list())

      # word embedding之后的tensor是[batch_size, seq_length, width]
      # 因为位置编码是与输入内容无关,它的shape总是[seq_length, width]
      # 我们无法把位置Embedding加到word embedding上
      # 因此我们需要扩展位置编码为[1, seq_length, width]
      # 然后就能通过broadcasting加上去了。
      position_broadcast_shape = []
      for _ in range(num_dims - 2):
        position_broadcast_shape.append(1)
      position_broadcast_shape.extend([seq_length, width])
      position_embeddings = tf.reshape(position_embeddings,
                                       position_broadcast_shape)
      output += position_embeddings

 两者之间的区别


Transformer的位置编码是一个固定值,因此只能标记位置,但是不能标记这个位置有什么用。

BERT的位置编码是可学习的Embedding,因此不仅可以标记位置,还可以学习到这个位置有什么用。

BERT选择这么做的原因可能是,相比于Transformer,BERT训练所用的数据量充足,完全可以让模型自己学习。

如何延拓BERT的位置编码?
我们知道,BERT模型最多只能处理512个token的文本,其原因在于BERT使用了随机初始化训练出来的绝对位置编码,最大位置设为为512,若是文本长于512便无位置编码可用。

另一方面, 复杂度使得长序列的显存用量极大,一般显卡就连finetune也做不到。

苏神提出了一种层次分解的方法将BERT的位置编码最多可以延拓至26万。

具体内容可自行阅读苏神博客

层次分解位置编码,让BERT可以处理超长文本


http://www.kler.cn/a/379662.html

相关文章:

  • 汇总统计数据--SQL中聚集函数的使用
  • Python双指针
  • Vue.js 使用插槽(Slots)优化组件结构
  • 汇编学习笔记
  • 潜力巨大但道路曲折的量子计算
  • 21、Transformer Masked loss原理精讲及其PyTorch逐行实现
  • Springboot 整合 Java DL4J 实现情感分析系统
  • SQL 视图:概念、应用与最佳实践
  • 教程:使用 InterBase Express 访问数据库(四)
  • C++在游戏开发中的应用与实践
  • [前端面试]计算机网络
  • C语言案例——青蛙跳台阶问题
  • js-18-防抖、节流源码以及如何使用
  • git将本地项目上传到远程空仓库里
  • k8s中Deployment和StatefulSet两种控制器之间的比较
  • 【华为HCIP实战课程二十八】中间到中间系统协议IS-IS邻居关系排错,网络工程师
  • 网络设置:静态IP与动态IP,何去何从?
  • Odoo:免费开源的医药流通行业信息化解决方案
  • 视频号带货书籍,一天佣金1200+(附视频教程)
  • LangGPT结构化提示词编写实践(L1G3000 浦语提示词工程实践)
  • 聊一聊Qt中的按钮
  • (代码随想录)BEllman_ford算法 及其优化 SPFA
  • 【无标题】基于SpringBoot的母婴商城的设计与实现
  • 如何利用数据分析,做到低成本获客?
  • 【Oracle APEX开发小技巧10】CSS样式控制交互式报表列宽和自动换行效果
  • Python语言的12个基础知识点小结