小周带你读论文-2之“草履虫都能看懂的Transformer老活儿新整“Attention is all you need(4)
终结篇了
书接前文:小周带你读论文-2之"草履虫都能看懂的Transformer老活儿新整"Attention is all you need(3) (qq.com)
本章把Trasfomer剩的一点网络讲完
上节课我们讲完了attetion的机制,我们再复习一下(这玩意就得反复看,加深记忆)
我下面再换几张图,换个角度来看,来自于复旦的Qiu Xipeng教授的slide
首先自注意机制它也不是Transformer才有的,实际上以前也有RNN+self-attention来解决词相关性长距离依赖问题的网络
如下图所示,我们为了让"The weather is nice today"的"The"去判断它和其他4个词的关系,我们可以让"The"这个向量去分别跟其他每个单词的向量做内积,然后走softmax做归一化之后,