当前位置: 首页 > article >正文

【深度学习】常见模型-GPT(Generative Pre-trained Transformer,生成式预训练 Transformer)

🔹 GPT(Generative Pre-trained Transformer)

1️⃣ 什么是 GPT?

GPT(Generative Pre-trained Transformer,生成式预训练 Transformer)是由 OpenAI 开发的基于 Transformer 解码器(Decoder)自回归(Autoregressive)语言模型
它能够通过 大量无监督数据预训练,然后 微调(Fine-tuning) 以适应特定任务,如 文本生成、对话系统、代码生成等


2️⃣ GPT 的关键特点

基于 Transformer 结构:使用 多层自注意力(Self-Attention) 机制建模文本序列。
单向(左到右)训练:不同于 BERT 的 双向编码,GPT 仅使用 前向信息 进行预测。
自回归(Autoregressive)生成:通过 逐步预测下一个词 来生成文本。
大规模预训练 + 任务微调:先在 海量数据上预训练,再微调以适应具体应用。


3️⃣ GPT 的架构

📌 GPT 采用 Transformer 解码器,其核心包括:

  • 多头自注意力(Multi-Head Self-Attention):学习上下文关系。
  • 前馈神经网络(Feed-Forward Network, FFN):增加模型非线性能力。
  • 残差连接(Residual Connection)+ 层归一化(Layer Normalization):稳定训练过程。
  • 位置编码(Positional Encoding):保留输入文本的顺序信息。

📌 GPT 主要版本

版本参数量主要特点
GPT-1 (2018)1.17 亿仅用于 NLP 任务
GPT-2 (2019)15 亿 - 175 亿更强大的文本生成能力
GPT-3 (2020)1,750 亿可用于翻译、对话、代码生成等
GPT-4 (2023)兆级参数多模态能力(支持图像+文本)

4️⃣ GPT 的训练方式

📌 GPT 采用两阶段训练

  1. 预训练(Pre-training)

    • 在大规模文本数据(如维基百科、书籍、新闻等)上训练,目标是 预测下一个词
    • 公式: P(w_t | w_1, w_2, ..., w_{t-1})
    • 例如: 输入The cat sat on the 目标:预测 "mat"
  2. 微调(Fine-tuning)

    • 在特定任务(如问答、摘要、情感分析)上进行额外训练。
    • 例如,GPT 微调后可用于 ChatGPT 进行对话。

5️⃣ GPT 代码示例

使用 Hugging Face 运行 GPT

from transformers import GPT2LMHeadModel, GPT2Tokenizer

# 加载 GPT-2 预训练模型和分词器
model = GPT2LMHeadModel.from_pretrained("gpt2")
tokenizer = GPT2Tokenizer.from_pretrained("gpt2")

# 输入文本
input_text = "Artificial Intelligence is transforming the world"  # 输入文本
inputs = tokenizer(input_text, return_tensors="pt")  # 输入文本转换为模型输入

# 生成文本
output = model.generate(**inputs, max_length=50)  # 生成长度为50的文本
print(tokenizer.decode(output[0], skip_special_tokens=True))  # 输出文本

📌 输出示例

Artificial Intelligence is transforming the world.

The world is changing.

The world is changing.

The world is changing.

The world is changing.

The world is changing.

The world is changing.

GPT 进行问答

from transformers import pipeline

# 加载 GPT-2 进行问答任务
qa_pipeline = pipeline("text-generation", model="gpt2")

# 生成回答
response = qa_pipeline("What is the capital of France?", max_length=30)
print(response[0]["generated_text"])

📌 输出

What is the capital of France? How has Greece been governed? In short, what is its future? We will see what the French leadership stands for


6️⃣ GPT vs BERT(区别对比)
模型架构训练方式主要用途
GPTTransformer Decoder单向学习(左到右)主要用于 文本生成(如 ChatGPT)
BERTTransformer Encoder双向学习(MLM + NSP)适用于 NLP 任务(分类、问答、NER)

7️⃣ GPT 的应用

ChatGPT(聊天机器人)
代码生成(如 GitHub Copilot)
自动文本摘要
机器翻译
创意写作(小说、诗歌)
问答系统


8️⃣ 未来发展
  • GPT-5(待发布):预计将进一步提升推理能力、多模态交互、长文本记忆等。
  • 多模态 AI:结合 图像、音频、视频,实现更强的 AI 交互能力。
  • 更强的可控性和安全性:增强 AI 对 事实性、偏见、伦理 的控制能力。

📌 总结

  • GPT 是基于 Transformer 的解码器(Decoder)模型,擅长 文本生成
  • GPT 使用自回归方式进行预训练,通过 微调 适应特定任务。
  • 相比 BERT,GPT 更适用于对话、文本续写等生成任务
  • GPT 未来发展方向包括多模态、推理能力增强和更强的上下文理解能力

🚀 GPT 已成为 AI 发展的重要推动力,特别是在 ChatGPT、自动写作和代码生成等应用中大放异彩!


http://www.kler.cn/a/545233.html

相关文章:

  • VSCODE - 连接远程linux服务器,报错XHR failed 解决方法
  • 深度整理总结MySQL——undoLog日志工作原理
  • HTML之JavaScript使用JSON
  • sward简介与安装
  • Gradle 8.4.0 配置阿里云镜像的详细指南
  • 基于SpringBoot的在线车辆租赁信息管理系统
  • electron本地调试时终端输出文字乱码
  • vue的路由 vue-router
  • DeepSeek与Web3:科技融合的新纪元
  • ES节点配置的最佳实践
  • Win10环境使用Dockerdesktop部署Dify集成Deepseek
  • 新数据结构(9)——Java异常体系
  • 小米CyberGear电机 STM32软件修改CAN_ID
  • 基于Flask的软科中国大学排名数据可视化分析系统的设计与实现
  • github与git bash绑定问题
  • 【面试】面试常见的智力题
  • el-select 设置宽度 没效果
  • 无人机生态环境监测、图像处理与GIS数据分析综合实践技术应用
  • 【Redis存在线程安全问题吗?】
  • 前沿科技一览当今创新技术趋势