当前位置: 首页 > article >正文

GPT-2 大模型

GPT-2 大模型

  • 模型架构
  • 训练核心思想

GPT-2 :

  • OpenAI 在 2019 年 2 月推出 GPT-2,并发表 Language Models are Unsupervised Multitask Learners
  • 核心思想 : 多任务学习,仅用无监督预训练得到泛化能力更强的语言模型
  • 参数 : 最大模型共计 48 层,参数量达 15 亿

模型特点 :

  • 训练数据规模更大 , 800w 文档 40G
  • 训练参数, batch_size 从 64 增加到 512, 上文窗口大小从 512 增加到 1024
  • 优点 : 文本生成效果好,仅 zero-shot 学习 ; 无需额外训练
  • 缺点 : 监督学习能力有待提升 , 有些任务表现不佳

数据集 :

  • 数据量 : 足够大且覆盖面广,共 800 万篇文章,约 40G
  • 来源 : Reddit 高赞的文章

模型架构

GPT-2 改动 :

  • Self-Attention 层 和 Feed Forward 层前 , 放 LN (Layer Normalization,层归一化) 层
  • 最后一层放 LN 层
  • 输入序列的最大长度扩充到 1024

训练核心思想

GPT-2 :

  • 目的 : 用无监督的预训练模型 , 做有监督的任务
  • 观念 : zero-shot (零样本学习) , 无需标注数据 , 模型训练

http://www.kler.cn/a/551512.html

相关文章:

  • 【深度学习】预训练和微调概述
  • 【Golang】GC探秘/写屏障是什么?
  • 深度解析Unity3D渲染管线:网格、材质与GPU渲染的协同逻辑
  • oracle序列每天重置
  • P11071 「QMSOI R1」 Distorted Fate Solution
  • BS5852英国家具防火安全条款主要包括哪几个方面呢?
  • 极限网关 INFINI Gateway 从 0 到 1:简单易懂的入门教程
  • Arduino IDE编程ESP32-C3的Flash选项
  • 10分钟上手DeepSeek开发:SpringBoot + Vue2快速构建AI对话系统
  • 【C/C++】后缀表达式 蓝桥杯/ACM备赛
  • Activity相关学习(五)
  • (leetcode 1749 前缀和)1749. 任意子数组和的绝对值的最大值
  • 从零搭建微服务项目(第5章——SpringBoot项目LogBack日志配置+Feign使用)
  • 【stm32】DAC实验(stm32f4hal库)
  • Redis 全方位解析:从入门到实战
  • 在 Ubuntu Linux 环境下安装 Maven
  • 基于微信小程序的电影院订票选座系统的设计与实现,SSM+Vue+毕业论文+开题报告+任务书+指导搭建视频
  • VPN 的入门介绍,网络安全零基础入门到精通实战教程!
  • 前端工程化的具体实现细节
  • HTTP 核心概念