当前位置: 首页 > article >正文

Attention计算中的各个矩阵的维度都是如何一步步变化的?

在Transformer模型中,各个矩阵的维度变化是一个关键的过程,涉及到输入、编码器、解码器和输出等多个阶段。以下是详细的维度变化过程:

输入阶段

  • 输入序列:假设输入序列的长度为seq_len,每个单词或标记通过词嵌入(word embedding)转换为一个固定维度的向量,维度为d_model。因此,输入矩阵的维度为(seq_len, d_model)
  • 位置编码:位置编码(Positional Encoding)通常与词嵌入向量相加,以提供序列中每个单词的位置信息。位置编码的维度与词嵌入相同,即(seq_len, d_model)

编码器(Encoder)阶段

  • 多头注意力机制(Multi-Head Attention)

    • 查询(Q)、键(K)、值(V)矩阵:输入矩阵与权重矩阵相乘得到Q、K、V矩阵。假设每个头的维度为d_k(通常d_k = d_model / num_heads),则Q、K、V的维度为(seq_len, d_k)
    • 注意力计算:Q与K的转置相乘,得到一个注意力得分矩阵,维度为(seq_len, seq_len)。经过softmax处理后,再与V相乘,得到输出矩阵,维度为(seq_len, d_k)
    • 多头拼接:将所有头的输出拼接或平均,得到最终的输出矩阵,维度为(seq_len, d_model)
  • 前馈神经网络(Feed-Forward Network)

    • 输入矩阵经过两个线性变换和非线性激活函数,最终输出的维度保持为(seq_len, d_model)

解码器(Decoder)阶段

  • 掩码多头注意力机制(Masked Multi-Head Attention)

    • 类似于编码器中的多头注意力机制,但使用了掩码来防止解码器在生成时“偷看”未来的信息。输出矩阵的维度为(seq_len, d_model)
  • 编码器-解码器注意力机制

    • 解码器的查询(Q)与编码器的键(K)和值(V)进行注意力计算,输出矩阵的维度为(seq_len, d_model)

输出阶段

  • 线性层和Softmax
    • 解码器的输出经过一个线性层,将维度从(seq_len, d_model)转换为(seq_len, vocab_size),其中vocab_size是词汇表的大小。
    • 最后通过Softmax层,得到每个单词的概率分布,用于预测下一个单词。

这些维度变化确保了Transformer模型能够有效地处理序列数据,并在各个层之间传递和转换信息。


http://www.kler.cn/a/487380.html

相关文章:

  • [免费]微信小程序(高校就业)招聘系统(Springboot后端+Vue管理端)【论文+源码+SQL脚本】
  • 点击底部的 tabBar 属于 wx.switchTab 跳转方式,目标页面的 onLoad 不会触发(除非是第一次加载)
  • 深入学习RabbitMQ的Direct Exchange(直连交换机)
  • html + css 顶部滚动通知栏示例
  • JWT与Token
  • 分享:osgb倾斜数据转cesium-3dtiles 小工具.
  • SQL UNION 操作符
  • 【Linux 之一 】Linux常用命令汇总
  • Redis数据库笔记——Cluster集群模式
  • 状态模式详解
  • 大模型搜索引擎增强问答demo-纯python实现
  • Sentinel服务保护 + Seata分布式事务
  • 开放词汇检测新晋SOTA:地瓜机器人开源DOSOD实时检测算法
  • C# winform 多线程 UI更新数据 报错:无法访问已释放的对象。
  • 【AI日记】25.01.09
  • 程序血缘分析技术在工商银行软件工程中的应用
  • 一.MySQL程序简介
  • 用BaoStock判断一只股票昨天是否涨停~~
  • GC8872 是一款带故障报告功能的刷式直流电机驱动芯片, 适用于打印机、电器、工业设备以及其他小型机器。
  • 【贵州省】乡镇界arcgis格式shp数据乡镇名称和编码内容下载测评
  • c#学生课程设计之仿windows计算器开发
  • OWASP ZAP安全测试--使用(自动扫描、手动浏览)
  • 系统思考—问题分析
  • 移动端可互动轮播图
  • VoiceBox:基于文本引导的多语种通用大规模语音生成
  • CSS学习记录26