从零实现诗词GPT大模型:实现多头自注意力
专栏规划: https://qibin.blog.csdn.net/article/details/137728228
在上一篇文章的最后,我们已经介绍了为什么要使用多头注意力了,本篇文章我们主要来实现多头自注意力,然后综合我们之前实现的FFN
和TransformerBlock
其实就差不多完成了整个GPT
模型的实现了。
在开始实现之前,我们还是把整个SelfAttention
的公式再贴一遍,方面我们后面实现代码时参考。
A t t e n