当前位置: 首页 > article >正文

深度学习-14-深入理解BERT的基本思想和如何训练BERT模型

文章目录

  • 1 BERT
    • 1.1 BERT的基本思想
    • 1.2 BERT的原理
    • 1.3 BERT的配置
      • 1.3.1 BERT-base
      • 1.3.2 BERT-large
      • 1.3.3 BERT的其他配置
    • 1.4 输入数据表示
      • 1.4.1 标记嵌入
      • 1.4.2 片段嵌入
      • 1.4.3 位置嵌入
      • 1.4.4 最终的表示
    • 1.5 WordPiece分词器
  • 2 如何预训练BERT模型
    • 2.1 预训练策略
    • 2.2 语言建模
      • 2.2.1 自回归语言建模
      • 2.2.2 自编码语言建模
    • 2.3 屏蔽语言建模任务
      • 2.3.1 随机屏蔽方法
      • 2.3.2 全词屏蔽方法
    • 2.4 下一句预测任务
      • 2.4.1 任务介绍
      • 2.4.2 处理流程
    • 2.5 预训练过程
      • 2.5.1 准备数据集
      • 2.5.2 训练参数
  • 3 参考附录

1 BERT

BERT(Bidirectional Encoder Representations from Transformers)

1.1 BERT的基本思想

BERT是一种双向Transformer架构,擅长处理自然语言理解认为。它通过遮盖语言模型,和下一句预测进行训练。双向性允许BERT同时考虑左侧和右侧的上下文,增强了理解能力。

BERT如此成功的一个原因之一是它是基于上下文(context-based)的嵌入模型。
不像其他流行的嵌入模型,比如word2vec,是上下文无关的(context-free)。
首先,让我们理解基于上下文和上下文无关的嵌入模型的区别。
考虑下面两个句子:

Sentence A:He got bit by Python.
Sentence B:Python is my favorite programming language.

在句子A中,​​Python​​​是蟒蛇的意思。
在句子B中,Python是编程语言的意思。

如果我们得到上面两个句子中单词​​​Python​​​的嵌入向量:
那么像word2vec这种嵌入模型就会为这两个句子中的​​Python​​​赋予相同的


http://www.kler.cn/a/310280.html

相关文章:

  • 由播客转向个人定制的音频频道(1)平台搭建
  • Redis五种数据类型剖析
  • Linux权限和开发工具(3)
  • 动态规划 —— dp 问题-买卖股票的最佳时机IV
  • 电脑不显示wifi列表怎么办?电脑不显示WiF列表的解决办法
  • 区块链技术在知识产权保护中的应用
  • Golang | Leetcode Golang题解之第416题分割等和子集
  • golang学习笔记28——golang中实现多态与面向对象
  • 微信getUserProfile不弹出授权框
  • 编写第一个hadoop3.3.6的mapreduce程序
  • 解决 npm ERR! node-sass 和 gyp ERR! node-gyp 报错问题
  • 第十一章 【后端】商品分类管理微服务(11.4)——spring-boot-devtools
  • play-with-docker使用指南
  • 不想一直走前端,试试产品吧
  • 【AIGC半月报】AIGC大模型启元:2024.09(下)
  • 无人机之控制距离篇
  • CloudFlare问题与CDN问题
  • uni-data-select 使用 localdata 传入数据出现 不回显 | 下拉显示错误的 解决方法
  • 初识ZYNQ——FPGA学习笔记15
  • 观察者模式,回调函数,事件调度
  • K近邻算法_分类鸢尾花数据集
  • 海康威视摄像机和录像机的监控与回放
  • C++/CLI编程知识点小记
  • spug项目实现代码本地启动步骤
  • GEC6818初次连接使用
  • Python快速入门 —— 第六节:模块与包