当前位置: 首页 > article >正文

论文阅读——GPT3

来自论文:Language Models are Few-Shot Learners

Arxiv:https://arxiv.org/abs/2005.14165v2

记录下一些概念等。,没有太多细节。

预训练LM尽管任务无关,但是要达到好的效果仍然需要在特定数据集或任务上微调。因此需要消除这个限制。解决这些问题的一个潜在途径是元学习——在语言模型的背景下,这意味着该模型在训练时发展了一系列广泛的技能和模式识别能力,然后在推理时使用这些能力来快速适应或识别所需的任务(如图1.1所示)

“in-context learning”:

关于“zero-shot”, “one-shot”, or “few-shot”的解释:

随着模型增大,in-context learning效果越好:

关于“zero-shot”, “one-shot”, or “few-shot”

 模型结构和GPT2一样,但是改了初始化、预归一化、reversible tokenization,以及在transformers层中使用类似Sparse Transformer的交替密集和局部稀疏的注意力模式。

内容窗口大小=2048 tokens

训练了8个不同大小的模型:

其他细节:

训练大模型需要大batch,小学习率。

few-shot learning中,实例样本数量k取值可以从0到最大窗口大小,一般可以设为10-100。


http://www.kler.cn/news/108853.html

相关文章:

  • AcWing89. a^b
  • vue数组中的变更方法和替换方法
  • 【PG】PostgreSQL客户端认证pg_hba.conf文件
  • 笔记44:Batch_Normlization 过程详解
  • openpnp - Warning - Unknown firmware
  • IEEE Standard for SystemVerilog—Chapter 25.7 Tasks and functions in interfaces
  • GZ035 5G组网与运维赛题第6套
  • eslint识别不了别名解决方法
  • C++可视化 有穷自动机NFA 有穷自动机DFA
  • Linux——文件权限属性和权限管理
  • Python学习——Day11--封装、继承、多态
  • NLP之搭建RNN神经网络
  • Python 框架学习 Django篇 (六) ORM关联
  • Ansible脚本进阶---playbook
  • lwip代码分析
  • 信息系统项目管理师教程 第四版【第6章-项目管理概论-思维导图】
  • 常用conda和pip命令总结
  • 构建外卖小程序:技术要点和实际代码
  • 【深度学习】使用Pytorch实现的用于时间序列预测的各种深度学习模型类
  • Ubuntu系统编译调试QGIS源码保姆级教程
  • C#两个表多条件关联写法
  • 基于springboot,vue校园社团管理系统
  • 【pandas技巧】group by+agg+transform函数
  • Mysql第四篇---数据库索引优化与查询优化
  • IconWorkshop中文官方版下载_IconWorkshop最新版下载v6.91汉化破解版下载
  • Docker安装部署Elasticsearch+Kibana+IK分词器
  • 网络搭建和运维的基础题目
  • C++设计模式_16_Adapter 适配器
  • Java游戏修炼手册:2023 最新学习线路图
  • EtherNet/IP转profienrt协议网关连接EtherNet/IP协议的川崎机器人配置方法