当前位置：首页 > article >正文

论文阅读——GPT3

article 2025/3/11 15:51:03

来自论文：Language Models are Few-Shot Learners

Arxiv：https://arxiv.org/abs/2005.14165v2

记录下一些概念等。，没有太多细节。

预训练LM尽管任务无关，但是要达到好的效果仍然需要在特定数据集或任务上微调。因此需要消除这个限制。解决这些问题的一个潜在途径是元学习——在语言模型的背景下，这意味着该模型在训练时发展了一系列广泛的技能和模式识别能力，然后在推理时使用这些能力来快速适应或识别所需的任务（如图1.1所示）

“in-context learning”：

关于“zero-shot”, “one-shot”, or “few-shot”的解释：

随着模型增大，in-context learning效果越好：

关于“zero-shot”, “one-shot”, or “few-shot”

模型结构和GPT2一样，但是改了初始化、预归一化、reversible tokenization，以及在transformers层中使用类似Sparse Transformer的交替密集和局部稀疏的注意力模式。

内容窗口大小=2048 tokens

训练了8个不同大小的模型：

其他细节：

训练大模型需要大batch，小学习率。

few-shot learning中，实例样本数量k取值可以从0到最大窗口大小，一般可以设为10-100。

查看全文

http://www.kler.cn/a/108853.html

AcWing89. a^b

vue数组中的变更方法和替换方法

【PG】PostgreSQL客户端认证pg_hba.conf文件

笔记44：Batch_Normlization 过程详解

openpnp - Warning - Unknown firmware

IEEE Standard for SystemVerilog—Chapter 25.7 Tasks and functions in interfaces

GZ035 5G组网与运维赛题第6套

eslint识别不了别名解决方法

C++可视化有穷自动机NFA 有穷自动机DFA

Linux——文件权限属性和权限管理

Python学习——Day11--封装、继承、多态

NLP之搭建RNN神经网络

Python 框架学习 Django篇 (六) ORM关联

Ansible脚本进阶---playbook

lwip代码分析

信息系统项目管理师教程第四版【第6章-项目管理概论-思维导图】

常用conda和pip命令总结

构建外卖小程序：技术要点和实际代码

【深度学习】使用Pytorch实现的用于时间序列预测的各种深度学习模型类

Ubuntu系统编译调试QGIS源码保姆级教程