Transformer以及BERT阅读参考博文
Transformer以及BERT阅读参考博文
Transformer学习:
已有博主的讲解特别好了:
- 李沐:Transformer论文逐段精读【论文精读】_哔哩哔哩_bilibili
- 知乎:Transformer模型详解(图解最完整版) - 知乎
个人杂想:
- Q K T ∗ V QK^{T}*V QKT∗V中, Q K T QK^T QKT其实可以理解为相似性矩阵S,那么 S ∗ V S*V S∗V其实就相当于相似性矩阵对原始的嵌入加权求和。这感觉就是GAT的一个思想源泉。
- 残差连接和concat挺重要的
BERT
-
BERT模型架构详解 - 知乎
-
李沐:BERT 论文逐段精读【论文精读】_哔哩哔哩_bilibili