当前位置: 首页 > article >正文

Transformer 架构简单理解;GPT-3.5 的架构,向量长度为 :12288;Transformer架构改进:BERT和GPT

目录

Transformer 架构简单理解

GPT-3.5 的架构,向量长度为 :12288

Transformer工作原理:在多头注意力机制(Multi - Head Attention)的标准操作中,每个头(head)的输入数据是相同的

Transformer架构改进:BERT

BERT:BERT是一种基于Transformer的预训练语言模型,它的最大创新之处在于引入了双向Transformer编码器,这使得模型可以同时考虑输入序列的前后上下文信息。

GPT


  1. Transformer 架构简单理解

    • Transformer 是一种基于自注意力机制(Self - Attention)的深度学习架构,主要用于处理序列数据,如自然语言文本。它摒弃了传统的循环神经网络(RNN)的顺序处理方式,能够并行计算序列中的元素,有效提高处理效率,并且在长序列数据处理上表现出色,能够很好地捕捉序列元素之间的语义关系。
  2. 查询向量(Query)、键向量(Key)和值向量(Value)的作用
    • 查询向量(Query):可以理解为是当前位置元素发出的 “询问信号”,用于寻找序列中与之相关的其他元素。例如,在一个句子中,一个单词通过查询向量来寻找句子里和它语义相关的其他单词。
    • 键向量(Key):相当于其他元素的 “标签” 或

http://www.kler.cn/a/378833.html

相关文章:

  • 【系统架构设计师】2022年真题论文: 论湖仓—体架构及其应用(包括解题思路和素材)
  • 算法笔记:Day-09(初始动态规划)
  • LeetCode46. 全排列(2024秋季每日一题 57)
  • Vue 全局状态管理:Vuex 从入门到精通
  • 04字符串算法/代码随想录
  • Java实现动态切换ubuntu壁纸功能
  • git创建一个公共子模块用于不同的项目共享这一个子模块
  • JWT-混淆算法
  • 鸿蒙HarmonyOS应用开发者(基础+高级)认证
  • uniapp下载文件的方案,包括H5,App方案解决办法
  • 如何使用Python WebDriver爬取ChatGPT内容(完整教程)
  • 数据结构,问题 C: 后缀表达式
  • Java NIO 【处理消息边界】
  • 基于 Spring Boot 和 Vue 的大学生入伍管理创新系统
  • CSS中display和visibility的区别
  • pnpm install安装element-plus的版本跟package.json指定的版本不一样
  • Hive SQL 和 SQL 的区别总结(持续更新中.....)
  • UV紫外相机
  • 在 C/C++ 之中为什么应该建议使用C函数库定义的基础数值类型,而不是编译默认的关键字类型?
  • Javase——正则表达式
  • C#开发webService接口
  • aws(学习笔记第九课) 使用AWS的网络存储EBS
  • Git 概述及相关命令(1)
  • 【小白学机器学习28】 统计学脉络+ 总体+ 随机抽样方法
  • 【Git】Git 版本控制与协作开发指南
  • 在VSCode中读取Markdown文件