当前位置：首页 > article >正文

论文阅读——BERT

article 2024/11/14 3:38:04

ArXiv：https://arxiv.org/abs/1810.04805

github：GitHub - google-research/bert: TensorFlow code and pre-trained models for BERT

一、模型及特点：

1、模型：

深层双向transformer encoder结构

BERT-BASE：(L=12, H=768, A=12）

BERT-LARGE：(L=24, H=1024, A=16）

2、特点：

不同任务使用统一架构，预训练和微调只有很小不同

双向预训练模型——通过训练MLM子任务获得

二、训练：两阶段训练——预训练和微调

1、预训练：

（1）训练设置

1）在无标签、不同任务上训练

2）训练两个子任务：Masked LM（MLM）,Next Sentence Prediction (NSP)

MLM：为了双向模型

损失函数：cross entropy loss

mask：随机选择15%的位置，被选择的位置有80%mask，10%随机token，10%unchanged。训练中位置不变，但是由于每个句子不一样，所以预测的token也不是每次都一样。

NSP：为了理解句子关系

（2）数据：

BooksCorpus (800M words)、English Wikipedia (2,500M words) extract only the text passages and ignore lists, tables, and headers.

2、微调：

预训练参数初始化，针对不对任务在有标签数据的所有参数微调，不同任务各自单独微调。

三、实验：

1、数据：

GLUE、SQuAD v1.1（问答。损失函数-最大似然，首先在TriviaQA上微调，然后在SQuAD 上微调）、SQuAD v2.0（没有在TriviaQA上微调）、The Situations With Adversarial Generations (SWAG)

查看全文

http://www.kler.cn/a/107907.html

知识库管理系统：企业数字化转型的加速器

程序员年薪百万秘籍（一）

RHCE web解析、dns配置、firewalld配置实验

kettle开发-Day43-数据对比

搭建监控系统Prometheus + Grafana

go T 泛型

AI新能量！FortiGate NGFW面向数据中心全面集成FortiGuard AI 安全服务

Flutter框架实现登录注册功能，不连接数据库

ETCD备份与恢复

Tomcat的日志接收文件catalina.out nohup.out说明

C++编译与运行：其一、静态类型和动态类型

Vue--》简易资金管理系统后台项目实战（前端）

mac版本 Adobe总是弹窗提示验证问题如何解决

Go学习第十三章——Gin入门与路由

shell_52.Linux测试与其他网络主机的连通性脚本

x210项目重新回顾之十七升级到linux4.19.114 +buildroot2018再讨论

常用adb 命令

【mediasoup-sfu-cpp】4: SfuDemo：join并发布视频创建RTCTransport流程分析

[ubuntu系统下的文本编辑器nano,vim,gedit，文件使用，以及版本更新问题]

[100天算法】-尽量减少恶意软件的传播（day 45）

搜索与图论：匈牙利算法

Vue3：将表格数据下载为excel文件

MODBUS-RTU从站通信(SMART PLC作为MODBUS-RTU从站)

MySQL - 什么是覆盖索引和索引下推？

一文彻底理解python浅拷贝和深拷贝

vue手动拖入和导入excel模版

相关文章：