当前位置: 首页 > article >正文

BERT预训练的MLM和NSP任务的损失函数都是什么?

引言

       BERT预训练过程中包括两个主要任务:Masked Language Modeling(MLM) 和 Next Sentence Prediction(NSP)。

MLM损失函数:

       在MLM任务中,模型需要根据上下文预测被MASK掉的词语。具体来说,输入序列中的一部分词语被随机MASK,模型需要依据未被MASK的词语来预测这些被MASK的词语。

损失函数:

       MLM任务通常使用多类别交叉熵损失函数(Cross-Entropy Loss)。对于每一个被MASK的位置,计算模型预测的词与真实词之间的交叉熵损失。数学表达式为:

L MLM = − ∑ i ∈ M log ⁡ P ( w i ∣ C i ) L_{\text{MLM}} = -\sum_{i \in \mathcal{M}} \log P(w_i | C_i) LMLM=iMlogP(wiCi)

其中:

M \mathcal{M} M:被MASK的词语在序列中的位置集合。
w i


http://www.kler.cn/a/380759.html

相关文章:

  • A014-基于Spring Boot的家电销售展示平台设计与实现
  • WindowsDocker安装到D盘,C盘太占用空间了。
  • 在K8s平台部署个人博客
  • Kotlin by lazy和lateinit的使用及区别
  • C#属性 Property
  • 云轴科技ZStack在CID大会上分享VF网卡热迁移技术
  • 一文快速预览经典深度学习模型(一)——CNN、RNN、LSTM、Transformer、ViT
  • 架构师之路-学渣到学霸历程-43
  • 只允许指定ip远程连接ssh
  • 【3】流程控制
  • HarmonyOS鸿蒙开发入门,常用ArkUI组件学习(一)
  • Spring cloud
  • QT下载安装
  • 为什么要使用Docker?
  • c# 值类型
  • 青少年编程与数学 02-003 Go语言网络编程 02课题、网络分层模型
  • RHCE selinux 和 防火墙(fireword|iptable)
  • 【里程计在激光雷达SLAM中的作用】【gmapping算法hector_mapping算法】
  • 基于 LR(1) 和 LALR 的 Parser Generator
  • (九)JavaWeb后端开发——Servlet
  • 关于read/write 网络IO、硬盘IO的区别
  • PHP的线程安全与非线程安全版本的区别
  • 检索增强生成(RAG)
  • 【ArcGIS】绘制各省碳排放分布的中国地图
  • JAVA题目笔记(十三) 爬虫
  • python源码实例之根据出生日期判断你的星座-001