当前位置: 首页 > article >正文

GPT-1.0、GPT-2.0、GPT-3.0参数对比

以下是 GPT-1.0、GPT-2.0、GPT-3.0 的模型参数对比表格:

模型GPT-1.0GPT-2.0GPT-3.0
参数数量117M1.5B175B
层数12 层12 - 48 层96 层
嵌入维度768768 - 160012,288
注意力头数1212 - 2596
上下文长度51210242048
词汇表大小约 40,00050,00050,000
训练数据BooksCorpus (约 5GB)WebText (约 40GB)多种来源 (570GB)
显著特性提出“预训练+微调”框架支持多任务学习和长文本生成强大的少样本和零样本学习能力

http://www.kler.cn/a/404416.html

相关文章:

  • 4.langchain中的prompt模板 (partially format prompt templates)
  • ant-design-vue中table组件多列排序
  • 小程序-使用 iconfont 图标库报错:Failed to load font
  • TheadLocal出现的内存泄漏具体泄漏的是什么?弱引用在里面有什么作用?什么情景什么问题?
  • 【STK学习】part2-星座-目标可见性与覆盖性分析
  • 现在转前端怎么样?
  • 本地maven添加jar包
  • 美畅物联丨智能分析,安全管控:视频汇聚平台助力智慧工地建设
  • PyTorch——从入门到精通:PyTorch基础知识(normal 函数)【PyTorch系统学习】
  • 【英特尔IA-32架构软件开发者开发手册第3卷:系统编程指南】2001年版翻译,2-30
  • CSS中calc语法不生效
  • Android 从本地选择视频,用APP播放或进行其他处理
  • 缓冲区的奥秘:解析数据交错的魔法
  • C#(12) 内部类和分部类
  • 弹幕发送功能‘简单’实现
  • 数据集论文:面向深度学习的土地利用场景分类与变化检测
  • 设计模式-Adapter(适配器模式)GO语言版本
  • 2024信创数据库TOP30之达梦DM8
  • php:nginx如何配置WebSocket代理?
  • 接雨水
  • 智能工厂的设计软件 为了监管控一体化的全能Supervisor 的监督学习 之 序8 进化论及科学的信息技术创新:分布式账本/区块链/智能合约 之2
  • yolov5 数据集分享:纯干货
  • GEE 训练教程——Sentinel-1的卷积(核函数)的分析和可视化
  • this.$prompt 限制输入长度
  • Windows环境GeoServer打包Docker极速入门
  • 出海第一步:搞定业务系统的多区域部署