当前位置: 首页 > article >正文

LLM的原理理解6-10:6、前馈步骤7、使用向量运算进行前馈网络的推理8、注意力层和前馈层有不同的功能9、语言模型的训练方式10、GPT-3的惊人性能

目录

LLM的原理理解6-10:

6、前馈步骤

7、使用向量运算进行前馈网络的推理

8、注意力层和前馈层有不同的功能

注意力:特征提取

前馈层:数据库

9、语言模型的训练方式

10、GPT-3的惊人性能

一个原因是规模

大模型GPT-1。它使用了768维的词向量,共有12层,总共有1.17亿个参数。

OpenAI发布了GPT-2,其最大版本拥有1600维的词向量,48层,总共有15亿个参数。

2020年,GPT-3,它具有12288维的词向量,96层,总共有1750亿个参数。

今年,GPT-4。该公司尚未公布任何架构细节,GPT-4比GPT-3要大得多。

注释:


LLM的原理理解6-10:

6、前馈步骤

在注意力头在词向量之间传输信息后,前馈网络会“思考”每个词向量并尝试预测下一个词。在这个阶段,单词之间没有交换信息,前馈层会独立地分析每个单词。然而,前馈层可以访问之前由注意力头复制的任何信息。以下是GPT-3最大版本的前馈层结构。

绿色和紫色的圆圈表示神经元:它们是计算其输入加权和的数学函数。

前馈层之所以强大,是因为它有大量的连接。我们使用三个神经元作为输出层,六个神经元作为隐藏层来绘制这个网络,但是GPT-3的前馈层要大得多:输出层有12288个神经元(对应模型的12288维词向


http://www.kler.cn/a/409202.html

相关文章:

  • Spring 框架七大模块(Java EE 学习笔记03)
  • C++特殊类设计(不能被拷贝的类、只能在堆上创建对象的类、不能被继承的类、单例模式)
  • android-sdk 安装脚本
  • 设计模式——传输对象模式
  • 使用Notepad++工具去除重复行
  • Vue.js 插槽 Slots 实际应用 最近重构项目的时候遇到的...
  • leetcode 面试150之 156.LUR 缓存
  • c++中mystring运算符重载
  • 韩顺平 一周学会Linux | Linux 实操篇-实用指令
  • Python知识点精汇:集合篇精解!
  • 【大数据技术与开发实训】携程景点在线评论分析
  • HTMLCSS:翻书加载效果
  • 解!决!vscode!Path Intellisense 失效!不起作用问题!!
  • 机器学习实战笔记34-38:gridsearchcv的进阶使用,无监督学习:kmeans、DBSCAN
  • web网络安全系统
  • 深入浅出:大数据架构中的流处理与实时分析
  • 微服务系列概览
  • Momenta C++面试题及参考答案
  • Vue进阶面试题目(一)
  • vue3 + elementPlus 日期时间选择器禁用未来及过去时间
  • 【弱监督语义分割】Self-supervised Image-specific Prototype Exploration for WSSS 论文阅读
  • Leetcode 164.最大间距
  • c++视频图像处理
  • Linux连接网络的三种方式
  • 【JavaEE初阶 — 多线程】定时器的应用及模拟实现
  • 设计模式——拦截过滤器模式