当前位置: 首页 > article >正文

向沐神学习笔记:GPT,GPT-2,GPT-3 论文精读【论文精读】GPT部分

系列文章目录

例如:


文章目录

  • 系列文章目录
  • 一、GPT
    • 1、Abstract
  • 二、
    • 1、
    • 2、
    • 3、
  • 三、
    • 1、
    • 2、
    • 3、
  • 四、
    • 1、
    • 2、
    • 3、
  • 五、
    • 1、
    • 2、
    • 3、
  • 六、
    • 1、
    • 2、
    • 3、
  • 七、
    • 1、
    • 2、
    • 3、
  • 八、
    • 1、
    • 2、
    • 3、


一、GPT

  1. 同样模型大小,比如一个亿模型大小的时候,bert的性能表现优于gpt,也就是未来的工作更愿意用bert这篇文章,因为我咬咬牙还能跑起来,但是gpt的实验实在跑不起来。

1、Abstract

Natural language understanding comprises a wide range of diverse tasks such as textual entailment, question answering, semantic similarity assessment, and document classification. Although large unlabeled text corpora are abundant, labeled data for learning these specific tasks is scarce, making it challenging for discriminatively trained models to perform adequately. We demonstrate that large gains on these tasks can be realized by generative pre-training of a language model on a diverse corpus of unlabeled text, followed by discriminative fine-tuning on each specific task. In contrast to previous approaches, we make use of task-aware input transformations during fine-tuning to achieve effective transfer while requiring minimal changes to the model architecture. We demonstrate the effectiveness of our approach on a wide range of benchmarks for natural language understanding. Our general task-agnostic model outperforms discriminatively trained models that use architectures specifically crafted for each task, significantly improving upon the state of the art in 9 out of the 12 tasks studied. For instance, we achieve absolute improvements of 8.9% on commonsense reasoning (Stories Cloze Test), 5.7% on question answering (RACE), and 1.5% on textual entailment (MultiNLI).自然语言理解包括文本蕴涵、问题回答、语义相似性评估和文档分类等广泛的不同任务。尽管大量的未标注文本语料库非常丰富,但用于学习这些特定任务的标注数据却非常稀少,这使得经过区分训练的模型难以充分发挥作用。我们证明,通过对一个语言模型进行生成性预训练,然后对每个特定的任务进行区分性微调,可以在这些任务上获得很大的收益。与之前的方法不同,我们在微调期间使用任务感知输入转换,以实现有效的转换,同时只需对模型架构进行最小的更改。我们在自然语言理解的广泛基准测试中证明了我们的方法的有效性。我们的通用任务不可知模型优于使用为每项任务专门设计的架构的区别性训练模型,在研究的12项任务中,有9项的最新水平得到了显著提高。例如,我们在常识推理(故事完形填空测试)、问题回答(RACE)和文本蕴涵(MultiNLI)方面分别获得了8.9%、5.7%和1.5%的绝对改进。
理解:自然语言任务很多,但是根据这些任务来标注的数据很少。We demonstrate that large gains on these tasks can be realized by generative pre-training of a language model on a diverse corpus of unlabeled text, followed by discriminative fine-tuning on each specific task.这句话表明,我们训练一个预训练的语言模型,接下来再在有标号的子任务上训练一个分辨的微调模型,这个方法在计算机视觉方面以及非常流行,但是在NLP领域不流行是因为没有像ImageNet那么大规模的标号的数据。 机器翻译方面可能有那么大的数据急,但是一张图片和一个句子的信息量不对等,图片的像素所携带的信息量大约为一句话携带信息量的十倍。也就是说我们要至少有1000w个标记好的句子才达到了训练的标准。gpt和bert的突破就是说我们可以用没有标记好的数据来进行预训练。gpt后面的文章又做了zero-shot又是一个突破。之前的word2vec也是用的没有标记好的数据,但是他那时候在下游应用是通过改变模型,这里gpt只需要改变模型的输入加稍微改变模型即可。

二、

1、

2、

3、

三、

1、

2、

3、

四、

1、

2、

3、

五、

1、

2、

3、

六、

1、

2、

3、

七、

1、

2、

3、

八、

1、

2、

3、


http://www.kler.cn/news/288679.html

相关文章:

  • 4G手机智能遥控开关
  • Oracle查询预防解决分母为0的方法
  • 防御网站数据爬取:策略与实践
  • 基于FPGA实现SD NAND FLASH的SPI协议读写
  • 棋类游戏定制开发:步骤详解
  • ET6框架(七)Excel配置工具
  • 【数论 状态机dp】2572. 无平方子集计数
  • c++懒汉式单例模式(Singleton)多种实现方式及最优比较
  • laravel8快速开发简单博客系统(二)
  • HarmonyOS NEXT实战:“相机分段式拍照”性能提升实践
  • 深度学习100问11:什么是one-hot编码
  • Anaconda安装和环境配置教程(深度学习准备)
  • 用SQL语句 对时间进行周期计算week(date,mode)
  • SAP B1 三大基本表单标准功能介绍-物料主数据(下)
  • ClickHouse实时探索与实践 京东云
  • 使用LLaMA-Factory快速训练自己的专用大模型
  • 空间计量 | 似不相关回归SUR
  • k8s的Service和持久化存储
  • B端系统门门清之:CRM-客户管理系统,客户是一切的源头。
  • 动态规划---分割等和子集
  • 8.30-使用docker容器部署考试项目+使用Dockerfile部署java项目
  • 视频:Python深度学习量化交易策略、股价预测:LSTM、GRU深度门控循环神经网络|附代码数据...
  • (十五)SpringCloudAlibaba-Sentinel持久化到Nacos
  • python图像处理基础(skimage、PIL、OpenCV)
  • Java设计模式之建造者模式详细讲解和案例示范
  • JVM面试(二)内存区域划分
  • 无人机专业大学生参与无人机飞手执照培训技术分析
  • 【CPP 基础】如何把cpp库,分装给 c# 用。
  • 数据结构---线性表--栈和队列
  • ActiveMQ实战指南:实现发布/订阅(publish-subscribe)消息发送!