当前位置: 首页 > article >正文

论文阅读——BERT

ArXiv:https://arxiv.org/abs/1810.04805

github:GitHub - google-research/bert: TensorFlow code and pre-trained models for BERT

 

一、模型及特点:

1、模型:

        深层双向transformer encoder结构

        BERT-BASE:(L=12, H=768, A=12)

        BERT-LARGE:(L=24, H=1024, A=16)

2、特点:

        不同任务使用统一架构,预训练和微调只有很小不同

        双向预训练模型——通过训练MLM子任务获得

二、训练:两阶段训练——预训练和微调

1、预训练:

        (1)训练设置

            1)在无标签、不同任务上训练

            2)训练两个子任务:Masked LM(MLM),Next Sentence Prediction (NSP)

                 MLM:为了双向模型

                        损失函数:cross entropy loss

                        mask:随机选择15%的位置,被选择的位置有80%mask,10%随机token,10%unchanged。训练中位置不变,但是由于每个句子不一样,所以预测的token也不是每次都一样。

                 NSP:为了理解句子关系

        (2)数据:

            BooksCorpus (800M words)、English Wikipedia (2,500M words)  extract only the text passages and ignore lists, tables, and headers.

2、微调:

预训练参数初始化,针对不对任务在有标签数据的所有参数微调,不同任务各自单独微调。

三、实验:

1、数据:

GLUE、SQuAD v1.1(问答。损失函数-最大似然,首先在TriviaQA上微调,然后在SQuAD 上微调)、SQuAD v2.0(没有在TriviaQA上微调)、The Situations With Adversarial Generations (SWAG)


http://www.kler.cn/a/107907.html

相关文章:

  • 知识库管理系统:企业数字化转型的加速器
  • 程序员年薪百万秘籍(一)
  • RHCE web解析、dns配置、firewalld配置实验
  • kettle开发-Day43-数据对比
  • 搭建监控系统Prometheus + Grafana
  • go T 泛型
  • AI新能量!FortiGate NGFW面向数据中心全面集成FortiGuard AI 安全服务
  • Flutter框架实现登录注册功能,不连接数据库
  • ETCD备份与恢复
  • Tomcat的日志接收文件catalina.out nohup.out说明
  • C++编译与运行:其一、静态类型和动态类型
  • Vue--》简易资金管理系统后台项目实战(前端)
  • mac版本 Adobe总是弹窗提示验证问题如何解决
  • Go学习第十三章——Gin入门与路由
  • shell_52.Linux测试与其他网络主机的连通性脚本
  • x210项目重新回顾之十七升级到linux4.19.114 +buildroot2018再讨论
  • 常用adb 命令
  • 【mediasoup-sfu-cpp】4: SfuDemo:join并发布视频创建RTCTransport流程分析
  • [ubuntu系统下的文本编辑器nano,vim,gedit,文件使用,以及版本更新问题]
  • [100天算法】-尽量减少恶意软件的传播(day 45)
  • 搜索与图论:匈牙利算法
  • Vue3:将表格数据下载为excel文件
  • MODBUS-RTU从站通信(SMART PLC作为MODBUS-RTU从站)
  • MySQL - 什么是覆盖索引和索引下推?
  • 一文彻底理解python浅拷贝和深拷贝
  • vue手动拖入和导入excel模版