当前位置: 首页 > article >正文

GPT、GPT-2、GPT-3论文精读笔记

视频:GPT,GPT-2,GPT-3 论文精读【论文精读】_哔哩哔哩_bilibili

MAE论文:把bert用回计算机视觉领域

CLIP论文:打通文本和图像

GPT

论文:Improving Language Understanding by Generative Pre-Training

半监督学习:使用没有标号的文本进行预训练一个语言模型,用有标号的数据训练一个微调模型

Bert是Transformer的encoder(既能用前面 也能用后面特征),GPT是Transformer的decoder部分(带掩码的注意力机制,因为任务是预测下一个词,只能用来自前面的特征)

Bert是带掩码的语言模型,完形填空(挖掉中间的词 用上下文来预测该词)

无标号数据上做预训练

目标函数1:

给定 k 个词 预测下一个词,如何预测:

和Bert的区别不只是编码器解码器,更主要的区别是目标函数的选取,GPT的目标函数更难

有标号数据上做微调

标准的分类目标函数2:

将语言模型作为微调的辅助,得到的目标函数:

接下来考虑怎么把NLP中很多不一样的子任务表示成序列+标号的形式,调整数据而不调整模型,预训练好Transformer模型后 在做下游任务时候不需要改变模型结构(GPT跟以往相比的特点)

实验部分

12层Transformer的decoder 每层维度768(跟bert-base一样)

在预训练语言模型时是在自然文本上训练,但在下游任务时对其输入进行了构造(开始 结束 分隔符)

GPT-2

论文:Language Models are Unsupervised Multitask Learners

改进对每一个下游任务都需要微调(在每一个任务上还要提供部分样本用于训练)的缺点,好处是训练一个模型 在任何地方都能用

zero-shot

做到下游任务时,不需要任何标注信息,也不需要训练模型,使用 prompt

采样策略

预测出下一个词的概率,不一定选择概率最大的 可能希望具有多样性

参数 Temperature、Top k、Top p

Temperature = 1:不变,softmax 选出概率最大的数

Temperature越大,越多样

Top k:采样前k个词

Top p:累加概率 达到该概率就停止采样,一般95%

GPT-3

论文:Language Models are Few-Shot Learners

在做下游任务时不做任何梯度更新

核心的下游任务方式:

  • Zero-shot
  • One-shot:给出一个参考的问题和回答,要GPT根据给出的参考回答一个新问题
  • Few-shot


http://www.kler.cn/a/145097.html

相关文章:

  • FFmpeg(7.1版本)编译:Ubuntu18.04交叉编译到ARM
  • 1.27刷题记录
  • Kotlin判空辅助工具
  • MATLAB中extractAfter函数用法
  • 18、智能驾驶芯片外部接口要求
  • Maven的单元测试
  • oracle rac环境归档日志清除
  • 数据结构与算法【B树】的Java实现+图解
  • el-table表格排序(需要后端判别),el-table导出功能(向后端发送请求)
  • FlinkCDC实现主数据与各业务系统数据的一致性(瀚高、TIDB)
  • 5 个适用于 Windows 的顶级免费数据恢复软件
  • stm32中断调用流程
  • Python web自动化测试 —— 文件上传
  • ElasticSearch之文件描述符的数量
  • 从二极管到linux服务器
  • Matplotlib网格子图_Python数据分析与可视化
  • C语言每日一题(39)寻找两个正序数组的中位数
  • Failed to initialize NVML: Driver/library version mismatch
  • Nginx高级
  • BART 并行成像重建:ESPIRiT 重建(两组ESPIRiT maps)
  • DistilBERT模型训练实战
  • 易错知识点(数学一)
  • cJSON的使用——下载、打包与解析
  • [HCIE] IPSec-VPN (手工模式)
  • 「Verilog学习笔记」数据累加输出
  • 队列实现栈VS栈实现队列