GPT-2 大模型
GPT-2 大模型
- 模型架构
- 训练核心思想
GPT-2 :
- OpenAI 在 2019 年 2 月推出 GPT-2,并发表
Language Models are Unsupervised Multitask Learners
- 核心思想 : 多任务学习,仅用无监督预训练得到泛化能力更强的语言模型
- 参数 : 最大模型共计 48 层,参数量达 15 亿
模型特点 :
- 训练数据规模更大 , 800w 文档 40G
- 训练参数, batch_size 从 64 增加到 512, 上文窗口大小从 512 增加到 1024
- 优点 : 文本生成效果好,仅 zero-shot 学习 ; 无需额外训练
- 缺点 : 监督学习能力有待提升 , 有些任务表现不佳
数据集 :
- 数据量 : 足够大且覆盖面广,共 800 万篇文章,约 40G
- 来源 : Reddit 高赞的文章
模型架构
GPT-2 改动 :
- Self-Attention 层 和 Feed Forward 层前 , 放 LN (Layer Normalization,层归一化) 层
- 最后一层放 LN 层
- 输入序列的最大长度扩充到 1024
训练核心思想
GPT-2 :
- 目的 : 用无监督的预训练模型 , 做有监督的任务
- 观念 : zero-shot (零样本学习) , 无需标注数据 , 模型训练