当前位置：首页 > article >正文

GPT、GPT-2、GPT-3论文精读笔记

article 2025/3/4 15:22:10

视频：GPT，GPT-2，GPT-3 论文精读【论文精读】_哔哩哔哩_bilibili

MAE论文：把bert用回计算机视觉领域

CLIP论文：打通文本和图像

GPT

论文：Improving Language Understanding by Generative Pre-Training

半监督学习：使用没有标号的文本进行预训练一个语言模型，用有标号的数据训练一个微调模型

Bert是Transformer的encoder（既能用前面也能用后面特征），GPT是Transformer的decoder部分（带掩码的注意力机制，因为任务是预测下一个词，只能用来自前面的特征）

Bert是带掩码的语言模型，完形填空（挖掉中间的词用上下文来预测该词）

无标号数据上做预训练

目标函数1：

给定 k 个词预测下一个词，如何预测：

和Bert的区别不只是编码器解码器，更主要的区别是目标函数的选取，GPT的目标函数更难

有标号数据上做微调

标准的分类目标函数2：

将语言模型作为微调的辅助，得到的目标函数：

接下来考虑怎么把NLP中很多不一样的子任务表示成序列+标号的形式，调整数据而不调整模型，预训练好Transformer模型后在做下游任务时候不需要改变模型结构（GPT跟以往相比的特点）

实验部分

12层Transformer的decoder 每层维度768（跟bert-base一样）

在预训练语言模型时是在自然文本上训练，但在下游任务时对其输入进行了构造（开始结束分隔符）

GPT-2

论文：Language Models are Unsupervised Multitask Learners

改进对每一个下游任务都需要微调（在每一个任务上还要提供部分样本用于训练）的缺点，好处是训练一个模型在任何地方都能用

zero-shot

做到下游任务时，不需要任何标注信息，也不需要训练模型，使用 prompt

采样策略

预测出下一个词的概率，不一定选择概率最大的可能希望具有多样性

参数 Temperature、Top k、Top p

Temperature = 1：不变，softmax 选出概率最大的数

Temperature越大，越多样

Top k：采样前k个词

Top p：累加概率达到该概率就停止采样，一般95%

GPT-3

论文：Language Models are Few-Shot Learners

在做下游任务时不做任何梯度更新

核心的下游任务方式：

Zero-shot
One-shot：给出一个参考的问题和回答，要GPT根据给出的参考回答一个新问题
Few-shot

查看全文

http://www.kler.cn/a/145097.html

oracle rac环境归档日志清除

数据结构与算法【B树】的Java实现+图解

el-table表格排序(需要后端判别)，el-table导出功能(向后端发送请求)

FlinkCDC实现主数据与各业务系统数据的一致性（瀚高、TIDB）

5 个适用于 Windows 的顶级免费数据恢复软件

stm32中断调用流程

Python web自动化测试 —— 文件上传

ElasticSearch之文件描述符的数量

从二极管到linux服务器

Matplotlib网格子图_Python数据分析与可视化

C语言每日一题（39）寻找两个正序数组的中位数

Failed to initialize NVML: Driver/library version mismatch

Nginx高级

BART 并行成像重建：ESPIRiT 重建（两组ESPIRiT maps）

DistilBERT模型训练实战

易错知识点（数学一）

cJSON的使用——下载、打包与解析

[HCIE] IPSec-VPN （手工模式）

「Verilog学习笔记」数据累加输出

队列实现栈VS栈实现队列

GPT