当前位置: 首页 > article >正文

聊一聊GPT基本原理

什么是GPT?

GPT是“Generative Pre-trained Transformer”的缩写,它是基于Transformer架构的自然语言处理模型;

  1. G(Generative)-生成模型
  2. P(Pre-trained)- 预训练
  3. T(Transformer)- 转换器
    大模型是如何训练的?
    分为三个阶段:
    a. 无监督学习:给模型资料库,让模型自学
    b. 有监督学习:让模型学习人类整理好的规范性回答
    c. 强化学习:不断给模型返回同一问题,进行排序(相似度计算、向量微调)不断优化模型
    优势:
    相比搜索引擎,大模型相当于一个掌握了人类语言规律且拥有海量数据的机器人,它能和人一样进行语言表达;更加智能,回答也更加准确
    劣势:
  4. LLM本身没有严格的逻辑推演,而是概率统计方面的关联度;不能够保证问题100%的准确性(可能存在说瞎话)
  5. 大模型的使用需要较高的计算资源投入,对于一些资源有限的企业和个人来说,可能会存在较大的门槛

GPT模型的训练分为两个阶段:预训练和微调:

  1. 预训练:在这一阶段,模型在大量无标签文本上进行训练,学习语言的通用特征。模型通过预测文本中的下一个词来完成任务,这是一个自回归的过程。预训练的目标是使模型能够生成连贯和有意义的文本序列。
  2. 微调:在预训练之后,模型可以在特定任务上进行微调。微调阶段通常使用与特定任务相关的较小数据集,并在这些数据上继续训练模型,以便它能够适应特定的下游任务。
    自然语言处理基础
  3. 自然语言处理(NLP):
    定义:自然语言处理(Natural Language Processing)是人工智能和语言学领域的一个分支,它旨在使计算机能够理解、解释和生成人类语言。NLP的目标是缩小人类语言和计算机之间的差距
  4. 语言模型
    定义:语言模型是NLP中的一个核心概念,它用于预测一个词序列(如句子或短语)的概率。语言模型的目的是评估一个给定的词序列在自然语言中出现的可能性。在NLP的许多任务中,语言模型都扮演着重要角色(文本生成、语音识别、机器翻译等)
  5. 深度学习
    定义:深度学习是自然语言处理领域中一种基于深度学习模型的技术。它利用深度神经网络的强大能力来理解和生成人类语言。
    一句话总结:ChatGPT通过Transformer架构和自注意力机制来理解用户的输入,并使用自回归方法来生成连贯的文本作为响应;

http://www.kler.cn/a/459941.html

相关文章:

  • 15. 接雨水
  • UnityRenderStreaming使用记录(三)
  • C++ hashtable
  • springboot 跨域配置
  • 从企业级 RAG 到 AI Assistant,阿里云 Elasticsearch AI 搜索技术实践
  • Qt监控系统放大招/历经十几年迭代完善/多屏幕辅屏预览/多层级设备树/网络登录和回放
  • word怎么添加链接,点击直接到参考文献
  • ID卡网络读卡器C#小程序开发
  • 视觉语言模型易受攻击?西安交大等提出基于扩散模型的对抗样本生成新方法
  • Kali Linux 文件系统详解
  • Python跨年烟花
  • 机器学习之数据分析及特征工程详细分析过程
  • Object.defineProperty() 完整指南
  • nginx平滑升级|nginx升级|解决漏洞CVE-2024-7347
  • 超越BeautifulSoup:探索Python爬虫的替代解析库
  • 线段树例题题解
  • Linux ACM 驱动程序
  • 【UE5】UnrealEngine源码构建2:windows构建unreal engine 5.3.2
  • Kali Linux系统上配置Git的全局代理
  • CentOS中使用SSH远程登录
  • STM32F103 I2C软件模拟(AT24C02)
  • 如何用Python爬取网站数据:基础教程与实战
  • 【AIGC-ChatGPT职业提示词指令】智能职业规划助手:基于SVG可视化的职业发展指南系统
  • JVM实战—3.JVM垃圾回收的算法和全流程
  • ubuntu18.04使用ndk编译protobuf库
  • Kafka数据迁移全解析:同集群和跨集群