当前位置: 首页 > article >正文

PyTorch深度学习与企业级项目实战-预训练语言模型GPT

【图书推荐】《PyTorch深度学习与企业级项目实战》-CSDN博客

13个PyTorch深度学习案例简介-CSDN博客

《PyTorch深度学习与企业级项目实战(人工智能技术丛书)》(宋立桓,宋立林)【摘要 书评 试读】- 京东图书 (jd.com)

PyTorch深度学习算法与应用_夏天又到了的博客-CSDN博客

15.3.1  什么是预训练语言模型

尽管神经网络模型在自然语言处理任务中已取得较好的效果,但其相对于非神经网络模型的优势并没有像在计算机视觉领域那么明显。该现象的主要原因可归结于当前自然语言处理任务的数据集相对较小(除机器翻译任务外)。深度神经网络模型通常包含大量参数,因此在较小规模的训练集中易过拟合,且泛化性较差。通过海量无标注语料来预训练神经网络模型,可以学习到有益于下游自然语言处理任务的通用语言表示,并可以避免从零训练新模型。预训练模型一直被视为一种训练深度神经网络模型的高效策略。

随着深度学习的发展,模型参数显著增长,从而需要越来越大的数据集用于充分训练模型参数并预防过拟合。然而,大部分自然语言处理任务的标注成本极为高昂,尤其是句法和语义相关任务构建大规模标注数据集尤为困难。相比较而言,大规模无标注数据集相对易于构建。为更好地利用海量无标签文本数据,我们可以首先从这些数据中学到较好的文本表示,然后将其用于其他任务。许多研究已表明,在大规模无标注语料中训练的预训练语言模型得到的表示,可以使许多自然语言处理任务获得显著的性能提升。

预训练的优势可总结为以下几点:

(1)在海量文本中通过预训练可以学习到一种通用语言表示,并有助于完成下游任务。

(2)预训练可提供更好的模型初始化,从而具有更好的泛化性,并在下游任务上更快收敛。

(3)预训练可被看作在小数据集上避免过拟合的一种正则化方法。

15.3.2  GPT-2模型介绍

OpenAI 公司在2018年提出了一种生成式预训练(Generative Pre-Training,GPT)模型,用来提升自然语言理解任务的效果,正式将自然语言处理带入“预训练”时代。“预训练”时代意味着利用更大规模的文本数据以及更深层的神经网络模型,来学习更丰富的文本语义表示。同时,GPT的出现打破了自然语言处理各个任务之间的壁垒,使得搭建一个面向特定任务的自然语言处理模型不再需要了解非常多的任务背景,只需要根据任务的输入输出形式应用这些预训练语言模型,就能够达到一个不错的效果。因此,GPT提出了“生成式预训练+判别式任务精调”的自然语言处理新范式,使得自然语言处理模型的搭建变得不再复杂。预训练语言模型的出现,使得自然语言处理进入新的时代,也被认为是近些年来自然语言处理领域的里程碑事件。

GPT-2是GPT算法的“进化版”,比GPT参数扩大了10倍,数据量也扩大了10倍,它使用包含800万个网页的数据集,共有40GB。这个庞大的算法使用语言建模作为训练信号,以无监督的方式在大型数据集上训练一个Transformer模型,然后在更小的监督数据集上微调这个模型,以帮助它解决特定任务。

就GPT-2而言,它的训练目标很简单:根据所有给定文本中前面的单词预测下一个单词。与其他基于神经网络的语言模型相比,GPT-2具有许多独特的优点。首先,它采用自监督学习的方式进行训练,使其能够处理多种语言和任务。其次,GPT-2可以生成各种类型的文本,例如新闻、故事、对话和代码等。最后,GPT-2模型使用大量的预训练参数,使其具有强大的表现力和泛化能力。

所以,以往大家的工作模式是各个公司会自己在GitHub网站上下载代码,然后公司出钱“捞”数据、打标,工程师用自己公司的打标数据训练来完成业务的需求。但是随着Huggingface的成立,自然语言处理各大热门的中英文预训练模型都开源在下载网址https://huggingface.co/models(目前可以使用其镜像网站https://hf-mirror.com来访问相关模型)。现在大家的工作模式是算法工程师打开Huggingface网站,搜业务相关的预训练模型(这些模型都是大厂基于大量的数据训练好的模型)进行下载,算法工程师自己收集或者标记少量的数据,微调下载的模型。

GPT-2的整体结构如图15-7所示,GPT-2是以Transformer为基础构建的,是目前最先进的自然语言处理预训练模型之一,能够根据上文预测下一个单词,所以它就可以利用预训练已经学到的知识来生成文本,比如生成新闻。也可以使用另一些数据进行微调,生成有特定格式或者主题的文本,比如诗歌、戏剧。

图15-7

15.3.3  PyTorch-Transformers库介绍

PyTorch-Transformers(此前叫作Pytorch-Pretrained-Bert)是一个面向自然语言处理的、当前性能最高的预训练模型开源库。该开源库现在包含PyTorch实现、预训练模型权重、运行脚本和以下模型的转换工具:

  1. 谷歌的 BERT,论文:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,论文作者:Jacob Devlin, Ming-Wei Chang, Kenton Lee,Kristina Toutanova
  2. OpenAI 的GPT,论文:Improving Language Understanding by Generative Pre-Training,论文作者:Alec Radford, Karthik Narasimhan, Tim Salimans,Ilya Sutskever。
  3. OpenAI 的 GPT-2,论文:Language Models are Unsupervised Multitask Learners,论文作者:Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever。
  4. 谷歌和 CMU 的 Transformer-XL ,论文:Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context,论文作者:Zihang Dai*, Zhilin Yang*, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov。
  5. 谷歌和 CMU 的XLNet,论文:XLNet: Generalized Autoregressive Pretraining for Language Understanding,论文作者:Zhilin Yang*, Zihang Dai*, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le。
  6. Facebook的 XLM,论文:Cross-lingual Language Model Pretraining,论文作者:Guillaume Lample,Alexis Conneau。

简而言之,就是一个目前最先进的、用于自然语言处理的预训练模型库。它通过命令pip install pytorch-transformers进行安装。

以下是实现加载GPT-2模型并实现下一个单词预测的功能代码:

############pytorch_transformers_demo.py##############
# 案例描述:Transformers库中的GPT-2模型,用它实现下一词预测功能
# 导入必要的库
import torch
from pytorch_transformers import GPT2Tokenizer, GPT2LMHeadModel
# 自动加载预训练模型tokenizer (权重)
tokenizer = GPT2Tokenizer.from_pretrained('gpt2')
# 对文本输入进行编码
text = "What is the fastest car in the"
indexed_tokens = tokenizer.encode(text)
# 将输入语句转换为张量
tokens_tensor = torch.tensor([indexed_tokens])
# 加载预训练模型 (weights)
model = GPT2LMHeadModel.from_pretrained('gpt2')
#将模型设置为evaluation模式,关闭DropOut模块
model.eval()
DEVICE = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
tokens_tensor = tokens_tensor.to(DEVICE)
model.to(DEVICE)
# 如果你有GPU,把所有东西都放在CUDA上,如果没有GPU,就只能用CPU跑

# 预测所有的tokens
with torch.no_grad():
    outputs = model(tokens_tensor)
    predictions = outputs[0]
# 得到预测的单词
predicted_index = torch.argmax(predictions[0, -1, :]).item()
predicted_text = tokenizer.decode(indexed_tokens + [predicted_index])
# 打印预测单词
print(predicted_text)

代码很直观,我们将文本标记为数字序列并将其索引,然后将其传递给GPT2LMHeadModel。代码运行后结果如下,该模型成功地预测出了下一个单词world:

100%|██████████| 1042301/1042301 [00:04<00:00, 238071.80B/s]
100%|██████████| 456318/456318 [00:01<00:00, 325186.65B/s]
100%|██████████| 665/665 [00:00<?, ?B/s]
100%|██████████| 548118077/548118077 [22:36<00:00, 403989.53B/s]
 What is the fastest car in the world


http://www.kler.cn/a/394111.html

相关文章:

  • TB1801D 线性驱动 LED 恒流芯片
  • HTML——38.Span标签和字符实体
  • 【MATLAB APP Designer】小波阈值去噪(第一期)
  • STM32-笔记23-超声波传感器HC-SR04
  • 1、Jmeter、jdk下载与安装
  • UE5材质节点CameraDepthFade
  • 探索AutoDL与CodeWithGPU:深度学习之旅的新起点
  • 【python】机器学习调参与自动化:使用Hyperopt优化你的模型
  • Microsoft Fabric - 尝试一下Real time event stream
  • 标贝科技:AI基础数据服务,人工智能行业发展的底层支撑
  • 【大数据学习 | HBASE高级】hbase-phoenix 与二次索引应用
  • React中 修改 html字符串 中某些元素的属性
  • ArkUI---常用组件---按钮 (Button)
  • 机器学习【激活函数】
  • 【LeetCode】【算法】64. 最小路径和
  • 【C++】类和对象-上
  • 【RabbitMQ】09-取消超时订单
  • 深入理解 MVC 与其他主流设计模式:架构精髓与实现方法详解
  • 67页PDF |埃森哲_XX集团信息发展规划IT治理优化方案(限免下载)
  • 【go从零单排】Signals、Exit
  • 原生js预览ofd文件
  • 第九部分 :1.STM32之通信接口《精讲》(USART,I2C,SPI,CAN,USB)
  • <Project-23 Navigator Portal> Python flask web 网站导航应用 可编辑界面:添加图片、URL、描述、位置移动
  • UI设计生成器:2024年在线设计工具
  • HCIP-HarmonyOS Application Developer 习题(二十一)
  • springboot接口返回数据给前端,BigDecimal为null但返回前端显示-1