当前位置: 首页 > article >正文

【学习笔记】GPT系列模型演变过程

GPT-1

基于Transformer的decoder-only架构
参数量只有0.1B,缺少通用的解决问题的能力,需要针对特定任务微调

GPT-2

参数规模扩大到了1.5B
与 GPT-1 不同,GPT-2 旨在探索通过扩 大模型参数规模来提升模型性能,并且尝试去除针对特定任务所需要的微调环节

GPT-3

GPT-2尝试成为”无监督多任务学习器“,但是效果不算优越。GPT-3通过大幅扩展参数规模,达到了175B,并且涌现了上下文学习能力,验证了Scaling-Law的潜力。
其后续改进中加入了代码数据训练与RLHF

GPT-4

参数规模大幅度提升,同时开始支持多模态

o系列

主打推理模型
引入长思维链,推理能力大幅度提升


http://www.kler.cn/a/589429.html

相关文章:

  • 嵌入式开发之STM32学习笔记day06
  • 算法016——最小覆盖子串
  • ABAP OPEN DATASET
  • nginx处理跨域问题以及隐藏第三方地址
  • 适配iOS 18:检测并移除三方库中的 bitcode 部分
  • CentOS高性能数据处理优化指南
  • 微服务存在的问题及解决方案
  • 设计模式之外观模式:原理、实现与应用
  • C++ primer plus 使用类上
  • 【Agent】OpenManus-Flow-PlanningFlow设计分析
  • golang-方法
  • 创建表空间和表
  • 优选算法的匠心之艺:二分查找专题(二)
  • C++洛谷基础练习题及解答
  • TCP简单链接的编程实现
  • 关于Redis的集群(上)
  • 高主频GPU+RTX4090:AI生图性能优化超150%
  • Netty基础—7.Netty实现消息推送服务一
  • llama.cpp 和 LLM(大语言模型)
  • 图 最 短 路