当前位置：首页 > article >正文

BERT预训练的MLM和NSP任务的损失函数都是什么？

article 2024/12/25 2:19:50

引言

BERT预训练过程中包括两个主要任务：Masked Language Modeling(MLM) 和 Next Sentence Prediction(NSP)。

在MLM任务中，模型需要根据上下文预测被MASK掉的词语。具体来说，输入序列中的一部分词语被随机MASK，模型需要依据未被MASK的词语来预测这些被MASK的词语。

损失函数：

MLM任务通常使用多类别交叉熵损失函数（Cross-Entropy Loss）。对于每一个被MASK的位置，计算模型预测的词与真实词之间的交叉熵损失。数学表达式为：

$L_{\text{MLM}} = -\sum_{i \in \mathcal{M}} \log P(w_i | C_i)$

其中：

$\mathcal{M}$ ：被MASK的词语在序列中的位置集合。

架构师之路-学渣到学霸历程-43

只允许指定ip远程连接ssh

【3】流程控制

Spring cloud

QT下载安装

为什么要使用Docker？

c# 值类型

基于 LR(1) 和 LALR 的 Parser Generator

（九）JavaWeb后端开发——Servlet

关于read/write 网络IO、硬盘IO的区别

检索增强生成（RAG）

JAVA题目笔记（十三）爬虫