当前位置: 首页 > article >正文

论文阅读——GPT3

来自论文:Language Models are Few-Shot Learners

Arxiv:https://arxiv.org/abs/2005.14165v2

记录下一些概念等。,没有太多细节。

预训练LM尽管任务无关,但是要达到好的效果仍然需要在特定数据集或任务上微调。因此需要消除这个限制。解决这些问题的一个潜在途径是元学习——在语言模型的背景下,这意味着该模型在训练时发展了一系列广泛的技能和模式识别能力,然后在推理时使用这些能力来快速适应或识别所需的任务(如图1.1所示)

“in-context learning”:

关于“zero-shot”, “one-shot”, or “few-shot”的解释:

随着模型增大,in-context learning效果越好:

关于“zero-shot”, “one-shot”, or “few-shot”

 模型结构和GPT2一样,但是改了初始化、预归一化、reversible tokenization,以及在transformers层中使用类似Sparse Transformer的交替密集和局部稀疏的注意力模式。

内容窗口大小=2048 tokens

训练了8个不同大小的模型:

其他细节:

训练大模型需要大batch,小学习率。

few-shot learning中,实例样本数量k取值可以从0到最大窗口大小,一般可以设为10-100。


http://www.kler.cn/a/108853.html

相关文章:

  • LLM之模型评估:情感评估/EQ评估/幻觉评估等
  • 常见error集合
  • 使用docker-compose单点搭建社区版seafile+onlyoffice在线word编辑平台
  • 智慧仓储物流可视化平台
  • 第七部分:2. STM32之ADC实验--AD多通道(AD采集三路传感器模块实验:光敏传感器、热敏传感器、反射式传感器附赠温湿度传感器教程)
  • 动手学深度学习68 Transformer
  • AcWing89. a^b
  • vue数组中的变更方法和替换方法
  • 【PG】PostgreSQL客户端认证pg_hba.conf文件
  • 笔记44:Batch_Normlization 过程详解
  • openpnp - Warning - Unknown firmware
  • IEEE Standard for SystemVerilog—Chapter 25.7 Tasks and functions in interfaces
  • GZ035 5G组网与运维赛题第6套
  • eslint识别不了别名解决方法
  • C++可视化 有穷自动机NFA 有穷自动机DFA
  • Linux——文件权限属性和权限管理
  • Python学习——Day11--封装、继承、多态
  • NLP之搭建RNN神经网络
  • Python 框架学习 Django篇 (六) ORM关联
  • Ansible脚本进阶---playbook
  • lwip代码分析
  • 信息系统项目管理师教程 第四版【第6章-项目管理概论-思维导图】
  • 常用conda和pip命令总结
  • 构建外卖小程序:技术要点和实际代码
  • 【深度学习】使用Pytorch实现的用于时间序列预测的各种深度学习模型类
  • Ubuntu系统编译调试QGIS源码保姆级教程