当前位置: 首页 > article >正文

BERT 大模型

BERT 大模型

  • Embedding
  • Transformer
  • 预微调模块
  • 预训练任务

BERT 特点 :

  • 优点 : 在语言理解相关任务中表现很好
  • 缺点 : 更适合 NLU 任务,不适合 NLG 任务

BERT 架构:双向编码模型 :

  • Embedding 模块
  • Transformer 模块
  • 预微调模块

Embedding

Embedding 组成 :

  • Token Embeddings:词嵌入张量,第一个单词是CLS标志,用于分类任务
  • Segment Embeddings:句子分段嵌入张量,用于两个句子为输入的预训练任务
  • Position Embeddings:位置编码张量
  • 输出张量 : 这3个张量的直接加和结果

Transformer

Transformer :

  • 只用 Transformer 的 Encoder 部分 , 舍弃 Decoder
  • 预训练任务集中在训练 Transformer 中

预微调模块

  • 根据任务不同需求调整最后一层
  • 对于sequence-level的分类任务,取第一个[CLS]token的final hidden state,加一层全连接层后进行softmax预测标签

预训练任务

MaskedLM(带 mask 的语言模型训练)

  • 输入句子中随机抽取 15% 的 token 作为训练对象
  • 80% 概率用 MASK 标记替换 token ,10% 概率用随机单词替换 token,10% 概率保持 token 不变

NextSentencePrediction(下一句话预测任务)

  • 输入句子对 (A , B) ,预测句子B是否是句子A的真实下一句
  • 50% 的 B 是原始文本中真实跟随A的下一句(正样本),50% 的 B 是随机抽取的一句话(负样本)


http://www.kler.cn/a/556517.html

相关文章:

  • LeetCode 2209.用地毯覆盖后的最少白色砖块:记忆化搜索之——深度优先搜索(DFS)
  • 机器学习 - 衡量模型的特性
  • uniapp引入uview组件库(可以引用多个组件)
  • 【机器学习】多元线性回归算法和正规方程解求解
  • 域内证书维权
  • 基于Python+Django+Vue的旅游景区推荐系统系统设计与实现源代码+数据库+使用说明
  • STL —— 洛谷字符串(string库)入门题(蓝桥杯题目训练)(二)
  • 不同安装路径重复R包清理
  • 解耦的艺术_应用架构中的解耦
  • 2024年职高单招或高考计算机类投档线
  • 【AI】openEuler 22.03 LTS SP4安装 docker NVIDIA Container Toolkit
  • 在nodejs中使用ElasticSearch(二)核心概念,应用
  • c++17 std::timespec_get 简介
  • 性格测评小程序10生成报告
  • SHELL32!SHLoadPopupMenu函数分析之添加属性菜单项
  • 1.22作业
  • 基于 JavaWeb 的 Spring Boot 网上商城系统设计和实现(源码+文档+部署讲解)
  • 【学习笔记】Cadence电子设计全流程(二)原理图库的创建与设计(8-15)
  • RabbitMQ的脑裂(网络分区)问题
  • go 网络编程 websocket gorilla/websocket