当前位置: 首页 > article >正文

<论文>语言模型可以进行无监督的多任务学习?

一、摘要

        本文介绍2019年来自OpenAI的论文《Language Models are Unsupervised Multitask Learners》,也就是提出GPT2的论文。论文提出语言模型在无监督的情况下,通过大规模多样化数据集训练,能够执行多种自然语言处理任务,展现出零样本学习能力,在当时为LLM的发展提供了一个新方向。

264f065452824f64b7215f6803fa22d3.png

译文:

        自然语言处理任务,如问答、机器翻译、阅读理解和摘要,通常通过在任务特定的数据集上进行监督学习来解决。我们展示了当在一个包含数百万网页的新数据集WebText上进行训练时,语言模型开始在没有任何明确监督的情况下学习这些任务。当以文档加问题为条件时,语言模型生成的答案在CoQA数据集上达到了55的F1分数——在不使用127,000多个训练示例的情况下,匹配或超过了4个基线系统中的3个。语言模型的容量对于零样本任务迁移的成功至关重要,增加容量可以以对数线性方式提高各任务的性能。我们最大的模型GPT-2是一个具有15亿参数的Transformer,在零样本设置下,在8个测试的语言建模数据集中的7个上达到了最先进的结果,但仍然对WebText存在欠拟合。模型生成的样本反映了这些改进,并包含连贯的文本段落。这些发现表明了一条有前途的路径,即构建能够从自然发生的示例中学习执行任务的语言处理系统。

二、核心创新点

        与其说是创新点,倒不如说是改进点,如下:

1、扩大训练数据集

        作者指出,以往的研究大都在单一文本领域上去训练LLM,并认为使用网络爬虫来获取多样化且几乎无限量的文本非常有意义。由此,作者创建了一个新的爬虫工具,用于提取高质量文本。具体来说,这个爬虫只选取那些经过人类筛选的网页,例如抓取社交媒体平台Reddit上的数据。最终生成的数据集WebText包含了800多万个文档,大小在40G。

2、输入表示

        对于输入表示,采用结合字级和词级优点的字节对编码(BPE),防止 BPE 跨字符类别合并,添加空格例外以提高压缩效率,使模型能处理任意 Unicode 字符串。

3、模型架构调整

        GPT2模型的架构整体上与GPT一致,但是做了一些微小的改动。首先,层归一化模块被移动到每个子块的输入处,同时最后的自注意力block后面新增一个额外的层归一化模块。其次,GPT2还使用了一种考虑模型深度在残差路径上积累的改进初始化方法,具体来说,初始化时将残差层的权重按照%20%5Csqrt%7BN%7D的因子进行缩放,其中N是残差层的数量。另外,词汇表的规模扩大到了50257,上下文大小也从512个Token扩大到了1024个Token,batch_size也扩大到512。

c5801417ca674d7399c24b12925b2273.png

三、总结

        这篇论文证明了LLM在大规模多样化数据集上预训练后,能在无监督零样本设置下执行多种自然语言处理任务,如阅读理解、翻译、问答等,无需特定任务的监督训练或架构修改。而相比起GPT1,GPT2更多地是向我们展示了什么叫大力出奇迹,即把数据量、输入上下文长度等扩大,模型效果也能得到提升。

 


http://www.kler.cn/a/453440.html

相关文章:

  • Kubernetes 常用的网络插件
  • 家政预约小程序数据库设计
  • 【Nginx系列】---Nginx配置tcp转发
  • 理解并使用 Linux 内核的字符设备
  • 给bmp和png,设置BLENDFUNCTION的AlphaFormat不同参数的效果
  • vue 基础学习
  • 从源码到应用:在线问诊系统与医疗陪诊APP的开发全过程详解
  • 12.26 学习卷积神经网路(CNN)
  • npm淘宝镜像
  • Dilateformer实战:使用Dilateformer实现图像分类任务(二)
  • BLE core 内容整理解释
  • FFMPEG结构体分析
  • Linux高并发服务器开发 第六天(rwx 对于目录和文件的区别 gcc编译器 动态库静态库)
  • yolov4算法及其改进
  • C#异步1
  • 蚂蚁集团 CTO 线大规模调整、多个 AI 业务部门被合并
  • 工业大数据分析算法实战-day16
  • 天池工业蒸汽量预测教程
  • FTT变换Matlab代码解释及应用场景
  • go window安装protoc protoc生成protobuf文件
  • vue关闭eslint校验及开启debugger
  • 【jenkins插件】
  • Java 集合使用注意事项总结
  • PYNQ2.7镜像直接升级成3.0以支持XCV(Xilinx Virtual Cable)
  • 代码随想录-笔记-其八
  • Jenkins 任意文件读取(CVE-2024-23897)修复及复现