当前位置: 首页 > article >正文

Tiny-universe-taks1-LLama3模型原理

LLama3模型原理-学习打卡

  • 大模型相关知识笔记
    • transformers
    • Self-Attention(自注意力机制)
    • Multi-Head-Attention(多头注意力机制)
  • LLama梳理

大模型相关知识笔记

transformers

目前市面上主流的大模型算法都给予Transformers架构,如下图所示,整个transformers建构大致可以分为两个部分:编码器(Encoder)和解码器(Decoder)。
编码器(Encoder)组成:

  1. Self-Attention(自注意力机制):它使每个输入的词能够关注序列中的其他词,通过计算词与词之间的注意力权重,提取全局信息。
  2. 残差链接(Residual Connection, Add):为了避免信息在深层网络中逐渐丢失,残差链接可以将输入直接传递到后续层,缓解梯度消失问题。
  3. 标准化(Layer Normalization):用于在每一层中标准化数据分布,帮助网络更快收敛。
  4. Feed-Forward(前馈神经网络):通过一个两层的全连接网络来进行进一步的特征提取和转换。

解码器(Decoder)组成:

  1. Self-Attention(自注意力机制):类似编码器中的自注意力机制,但在解码阶段通常会有masking机制,以确保模型不会看到未来的词(预测时只关注已生成的词)。
  2. Encoder-Decoder Attention(编码器-解码器注意力):解码器还会通过一个交互的注意力层,将编码器中的输出信息与解码器的中间层信息结合,用于生成更合适的输出。
  3. Feed-Forward(前馈神经网络):和编码器一样,通过全连接层进一步处理数据。

在这里插入图片描述
这部分其实大模型还可以根据transformer的具体情况分为三类:
自编码模型:只含有编码器模型,代表:Bert
自回归模型:只含有解码器,代表:Gpt
序列到序列(编码器-解码器模型 ):即含有编码器又含有解码器模型,代表:T5、Glm

Self-Attention(自注意力机制)

自注意力机制其实可以把他看作为算权重,然后平均回原始数据,这个其实在图像里面更容易理解,就是让模型更关注某些更重要的位置。如下图,根据原始的输入计算三个矩阵分别是Q、K、V,让不同通道间的Q、K计算内积,得到的结构在进行softmax得到一个注意力得分,在乘上V,就得到了注意力加权后的模型。
在这里插入图片描述

Multi-Head-Attention(多头注意力机制)

可以把 Multi-Head-Attention看作为多个Self-Attention

  1. 多个不同的Self-Attention分别计算不同的Wq、Wk、Wv
  2. 每个头都计算权重;多个头同时进行
  3. 把每个头拼接到一起
  4. 通过一个先行层,(输出线性变化)映射成原始维度

LLama梳理

这部分我这两天会尽快完成,最近加班实在没什么时间


http://www.kler.cn/news/311425.html

相关文章:

  • 快速掌握Postman接口测试
  • 基于python+django+vue的在线学习资源推送系统
  • 一个手机号注册3个抖音号的绿色方法?
  • 如何查看电脑什么时候被人动过及看过的文件?
  • 【Java版】云HIS系统源码
  • node js版本低导致冲突WARN EBADENGINE package: required: { node: ‘>=18‘ }
  • 操作系统基础
  • 傅里叶变换的基本性质和有关定理
  • TCP交互通讯在Windows中的频率
  • 【leetcode】堆习题
  • codetop哈希表刷题!!!刷穿地心版)
  • 如何使用ssm实现基于web的物流配送管理系统的设计与实现+vue
  • 【TabBar嵌套Navigation案例-关于页面 Objective-C语言】
  • FlexNet Licensing: not running 问题
  • IBM中国研发中心撤离背后的IT行业人才挑战与产业未来展望
  • web - JavaScript
  • .env文件详解(vite项目全局配置文件)
  • langchain报错记录(js)
  • node+express部署多套vue3项目,总404页面由node控制,子404页面由子vue控制,node路由重定向
  • 力扣 42.接雨水
  • MacOS Catalina 从源码构建Qt6.2开发库之01: 编译Qt6.2源代码
  • 机器学习-监督学习:朴素贝叶斯分类器
  • [C语言]第九节 函数一基础知识到高级技巧的全景探索
  • Python基础(九)——正则表达式
  • 软件工程中的耦合:类型、影响与优化策略
  • 索引的介绍
  • 【数据结构-差分】【hard】力扣995. K 连续位的最小翻转次数
  • 【RabbitMQ】重试机制、TTL
  • hku-mars雷达相机时间同步方案-软件驱动(MID360与海康MV-CB060-10UMUC-S)
  • 2-99 基于matlab多尺度形态学提取眼前节组织