当前位置: 首页 > article >正文

【大模型】GPT系列模型基础

前言:GPT整体上与transformer结构相似,但只用了decoder部分。

目录

  • 1. GPT
  • 2. GPT2
  • 3. GPT3
  • 4. 知识补充
    • 4.1 下游任务实现方式
    • 4.2 sparse attention

1. GPT

在这里插入图片描述

  • 预训练:无监督,根据前k个词预测下一个词的概率。
  • 微调: 有监督,目标函数=有监督的目标函数+λ*无监督的目标函数。
  • 核心结构:主要由12个transformer的decoder组成,并且只用了mask multi-head attention

2. GPT2

在这里插入图片描述

与GPT1相比做了以下改进:

  • 在attention前做了Layer Norm,使得模型输入更稳定
  • 输入序列的最大长度从 512 扩充到 1024。
  • 使用预训练+zero-shot的方式,而不是预训练+有监督微调,zero-shot通过prompt实现。

3. GPT3

与GPT2相比做了以下优化:

  • zero-shot变few-shot
  • attention变为了sparse attention

4. 知识补充

4.1 下游任务实现方式

  • fine-tuning:预训练 + 训练样本计算loss更新梯度,然后预测。会更新模型参数
  • zero-shot:预训练 + task description + prompt,直接预测。不更新模型参数
  • one-shot:预训练 + task description + example + prompt,预测。不更新模型参数
  • few-shot:又称为in-context learning,预训练 + task description + examples + prompt,预测。不更新模型参数

4.2 sparse attention

  • dense attention:token之间两两计算注意力,时间复杂度为 O ( N 2 ) {O(N^2)} O(N2)
  • sparse attention:token只与其他token的一个子集计算注意力。对于某一个token,只计算和他相对距离小于k,以及距离为2k,3k…nk的token计算,时间复杂度为 O ( N ∗ l o g ( N ) ) {O(N*log(N))} O(Nlog(N))

http://www.kler.cn/a/286400.html

相关文章:

  • Git进阶之旅:.gitignore 文件
  • 【外文原版书阅读】《机器学习前置知识》2.用看电影推荐的例子带你深入了解向量点积在机器学习的作用
  • android获取EditText内容,TextWatcher按条件触发
  • 雅思写作(支持句)
  • 软件工程概论试题三
  • 中国股市“慢牛”行情的实现路径与展望
  • 讯鹏科技智慧公厕专业供应商,解读智慧公厕有哪些奥秘
  • 【Spring Boot 3】【Web】文件下载
  • 盘点2024年4款可以免费使用的视频压缩软件。
  • 如何打造Java SpringBoot宿舍设备管理系统,全程跟踪设备使用周期,2025最新设计指南
  • 量化投资策略与技术学习PART8:量化选股之趋势追踪
  • 【数据结构】二叉树基础(带你详细了解二叉树)
  • GPU服务器与CPU服务器的不同之处
  • 37次8.27(docker03)
  • 我的sql我做主!Mysql 的集群架构详解之组从复制、半同步模式、MGR、Mysql路由和MHA管理集群组
  • QPS提升10倍怎么设计-JAVA后端经常用到的技术
  • tomcat 调优
  • Python爬虫案例五:将获取到的文本生成词云图
  • WT2605C蓝牙语音芯片:引领糖尿病管理智能化,优化血糖仪音频与蓝牙传输方案
  • VSCode手动创建SpringBoot项目的方法,及详细步骤
  • Docker通信全视角:原理、实践与技术洞察
  • 作业0828
  • 【C/C++】C++程序设计基础(输入输出、数据类型、动态内存、函数重载、内联函数、常量、引用)
  • Salt Function Flow:深度研发经验的沉淀,打造轻量级高效流程编排框架
  • 【Python报错已解决】“ModuleNotFoundError: No module named ‘timm‘”
  • 【Verilog 数字系统设计教程】Verilog 基础:硬件描述语言入门指南