当前位置: 首页 > article >正文

Bert各种变体——RoBERTA/ALBERT/DistillBert

RoBERTa

在这里插入图片描述

  1. 会重复一个语句10次,然后每次都mask不同的15%token。
  2. 丢弃了NSP任务,论文指出NSP任务有时甚至会损害性能。
  3. 使用了BPE

ALBERT

在这里插入图片描述

1. 跨层参数共享

可以共享多头注意力层的参数,或者前馈网络层的参数,或者全部共享。
实验结果发现,共享注意力层基本没有性能损失。

2. 词向量因式分解:

将词汇表改成两个矩阵乘。

3. 句子顺序预测

加入句子顺序预测任务,代替NSP任务。句子预测分为正序还是倒序。

DistillBERT

在这里插入图片描述
在这里插入图片描述

1. 有监督损失:

[MASK]对应的输出的损失

2. 蒸馏损失

使用teacher模型的概率作为指导信号,也是交叉熵,但是此时是软标签。

3. 词向量余弦函数

计算隐含层,教师模型和学生模型的向量余弦距离。


http://www.kler.cn/a/453251.html

相关文章:

  • jdk17+springboot3项目加密部署
  • tryhackme-Cyber Security 101-Linux Shells(linux命令框)
  • matplotlib pyton 如何画柱状图,利用kimi,直接把图拉倒上面,让他生成
  • 音视频入门知识(二)、图像篇
  • centos制作离线安装包
  • linux下各文件类型与作用
  • 容器化平台Docker初识
  • 动态规划<五> 子数组问题(含对应LeetcodeOJ题)
  • 下载运行Vue开源项目vue-pure-admin
  • 如何利用AWS监听存储桶并上传到tg bot
  • 模型 易得性偏差
  • 漏洞扫描:网络安全的 “体检” 与 “防护指南”
  • 常用的数据结构的时间复杂度
  • 实现某海外大型车企(T)Cabin Wi-Fi 需求的概述 - 4
  • 某些iphone手机录音获取流stream延迟问题 以及 录音一次第二次不录音问题
  • Python调用Elasticsearch更新数据库
  • Linux | 零基础Ubuntu搭建JDK
  • ref 和 reactive 的用法和区别
  • 【再学javascript算法之美】前端面试频率比较高的基础算法题
  • 新浪微博C++面试题及参考答案
  • 穷举vs暴搜vs深搜vs回溯vs剪枝系列一>括号生成
  • 复习打卡大数据篇——Hadoop HDFS 03
  • 【杂谈】-现代汽车有哪些传感器
  • (同一个正则表达式设置了全局标志(如 g),并循环使用test方法),导致匹配相同值却返回结果不一样
  • 关于埃斯顿机器人文件导出或者系统日志导出
  • OpenResty、Lua介绍认识