当前位置: 首页 > article >正文

Transformer以及BERT阅读参考博文

Transformer以及BERT阅读参考博文

Transformer学习:

已有博主的讲解特别好了:

  1. 李沐:Transformer论文逐段精读【论文精读】_哔哩哔哩_bilibili
  2. 知乎:Transformer模型详解(图解最完整版) - 知乎

个人杂想:

  1. Q K T ∗ V QK^{T}*V QKTV中, Q K T QK^T QKT其实可以理解为相似性矩阵S,那么 S ∗ V S*V SV其实就相当于相似性矩阵对原始的嵌入加权求和。这感觉就是GAT的一个思想源泉。
  2. 残差连接和concat挺重要的

BERT

  1. BERT模型架构详解 - 知乎

  2. 李沐:BERT 论文逐段精读【论文精读】_哔哩哔哩_bilibili


http://www.kler.cn/a/549427.html

相关文章:

  • python大恒相机保存RAW图和实时显示
  • Java ArrayList(单列集合)
  • 【CUDA】Pytorch_Extensions
  • 数据仓库与数据挖掘记录 二
  • 【Azure 架构师学习笔记】- Azure Databricks (11) -- UC搭建
  • 【ISO 14229-1:2023 UDS诊断(ECU复位0x11服务)测试用例CAPL代码全解析③】
  • Linux:深入了解进程信号(上)
  • DeepSeek与ChatGPT:AI语言模型的全面对决
  • 生成式大模型 怎么结合 知识库与 AI Agent
  • windows配置永久路由
  • Java运维实战:问题定位-CPU突增排查
  • 【动态规划】斐波那契数列模型
  • 聚铭网络入围2025年度江苏省政府采购信息安全设备协议供货名单
  • 【ISO 14229-1:2023 UDS诊断全量测试用例清单系列:第十七节】
  • 【LeetCode Hot100 矩阵】矩阵置零、螺旋矩阵、旋转图像、搜索二维矩阵II
  • matlab 柴油机冷却系统仿真计算
  • Python 自然语言处理(NLP)和文本挖掘的常规操作过程
  • PHP在线题库小程序
  • Large Language Model Distilling Medication Recommendation Model
  • CPP集群聊天服务器开发实践(四):客户端开发与功能测试