当前位置：首页 > article >正文

LiteratureReading:[2017] Attention Is All You Need

article 2025/3/20 11:02:52

文章目录

一、文献简明（zero）
二、快速预览（first）
- 1、标题分析
- 2、作者介绍
- 3、引用数
- 4、摘要分析
- - （1）翻译
  - （2）分析
- 5、总结分析
- - （1）翻译
  - （2）分析
- 6、部分图表
- 7、引言分析
- - （1）翻译
  - （2）分析
- 8、全部标题
- 9、参考文献
三、重点阅读（second）
四、深入理解（third）
五、技术复现（forth）

一、文献简明（zero）

领域：NLP、注意力机制
标题：[2017] Attention Is All You Need（注意力就是你所需要的一切）
作者：Mikolov et al.

贡献：提出了Word2Vec模型，包括CBOW和Skip-gram两种架构，开创了词向量表示的新时代。**
链接：https://arxiv.org/pdf/1301.3781

二、快速预览（first）

1、标题分析

“Attention Is All You Need”是一个非常著名的标题，它来自于2017年一篇具有里程碑意义的深度学习论文，由Ashish Vaswani等人撰写。这篇论文提出了“Transformer”架构，彻底改变了自然语言处理（NLP）领域的发展方向。以下是对这个标题的简要介绍：

一、背景

自然语言处理领域：在“Attention Is All You Need”这篇论文发表之前，循环神经网络（RNN）及其变体（如LSTM和GRU）是自然语言处理任务（如机器翻译、文本生成等）的主流架构。然而，这些架构存在一些局限性，例如难以并行计算、对长距离依赖关系的捕捉能力有限等。
注意力机制的兴起：注意力机制（Attention Mechanism）在此之前已经在一些研究中被提出并应用于神经网络，主要用于帮助模型更好地聚焦于输入数据中重要的部分。但是，它通常作为辅助模块嵌入到其他架构（如RNN）中。

二、标题含义

“Attention”（注意力）：这里的“注意力”指的是论文中提出的自注意力机制（Self-Attention Mechanism）。它是一种允许模型在处理序列数据时，动态地关注序列中不同位置之间的关系的方法。与传统的RNN架构不同，自注意力机制可以并行处理序列中的所有元素，大大提高了计算效率，并且能够更好地捕捉长距离依赖关系。
“Is All You Need”（就是你所需要的一切）：这个表述强调了注意力机制在模型架构中的核心地位。论文提出了一种全新的架构——Transformer，它完全摒弃了传统的RNN结构，仅依靠自注意力机制来构建模型。这种架构在当时被认为是一种大胆的创新，因为它表明在自然语言处理任务中，注意力机制本身足以替代以往复杂的循环神经网络架构，成为模型的主要构建模块。

三、影响

架构变革：Transformer架构的提出引发了自然语言处理领域的革命。它开启了“Transformer时代”，后续许多重要的模型（如BERT、GPT系列等）都是基于Transformer架构进行改进和扩展的。这些模型在各种自然语言处理任务上取得了前所未有的性能提升，如机器翻译、文本分类、问答系统等。
计算效率提升：由于自注意力机制可以并行计算，Transformer架构在训练和推理阶段的效率远高于传统的RNN架构。这使得研究人员能够训练更大规模的模型，从而进一步推动了自然语言处理技术的发展。
理论和应用的拓展：自注意力机制的广泛应用也促进了相关理论研究的深入。例如，研究人员对注意力机制的可视化、解释性等方面进行了大量研究。同时，Transformer架构也被扩展到其他领域，如计算机视觉（Vision Transformer）等，显示出其强大的通用性和适应性。

2、作者介绍

Ashish Vaswani - 隶属于Google Brain团队，Google Brain是Google的一个研究项目，专注于人工智能和机器学习的研究。他的电子邮件地址是avaswani@google.com。
Noam Shazeer - 同样隶属于Google Brain团队，电子邮件地址为noam@google.com。
Niki Parmar - 隶属于Google Research，这是Google的一个研究部门，负责广泛的技术研究，包括机器学习、计算机视觉等。电子邮件地址是nikip@google.com。
Jakob Uszkoreit - 也是Google Research的成员，电子邮件地址为usz@google.com。
Llion Jones - 隶属于Google Research，电子邮件地址为llion@google.com。
Aidan N. Gomez - 隶属于多伦多大学（University of Toronto），这是加拿大的一所顶尖研究型大学。他的电子邮件地址是aidan@cs.toronto.edu。
Łukasz Kaiser - 隶属于Google Brain，电子邮件地址为lukaszkaiser@google.com。
Illia Polosukhin - 电子邮件地址为illia.polosukhin@gmail.com，图片中没有明确列出他的机构，但他是这篇论文的共同作者之一。

这些作者共同撰写了论文“Attention Is All You Need”，这篇论文在自然语言处理领域产生了深远的影响，特别是对Transformer模型的提出和发展。

3、引用数

……

4、摘要分析

在这里插入图片描述

（1）翻译

摘要

主流的序列转换模型基于包含编码器和解码器的复杂循环或卷积神经网络。表现最好的模型还通过注意力机制将编码器和解码器连接起来。我们提出了一种新的简单网络架构——Transformer，它完全基于注意力机制，完全摒弃了循环和卷积。在两个机器翻译任务上的实验表明，这些模型在质量上更优，同时具有更高的并行化能力，并且训练时间显著减少。我们的模型在WMT 2014英德翻译任务上达到了28.4的BLEU分数，比现有最佳结果（包括集成模型）提高了2 BLEU以上。在WMT 2014英法翻译任务上，我们的模型在八个GPU上训练3.5天后，达到了41.0的新单模型最佳BLEU分数，这是文献中最佳模型训练成本的一小部分。

（2）分析

背景介绍
- 序列转换模型：指的是将一种序列（如一种语言的文本）转换为另一种序列（如另一种语言的文本）的模型，如机器翻译。
- 循环或卷积神经网络：传统的序列转换模型主要基于循环神经网络（RNN）或卷积神经网络（CNN），这些网络能够处理序列数据，但存在一些局限性，如难以并行计算、对长距离依赖关系的捕捉能力有限等。
Transformer模型的提出
- 基于注意力机制：Transformer模型完全基于注意力机制，不再依赖于循环或卷积结构。注意力机制允许模型在处理序列数据时，动态地关注序列中不同位置之间的关系，从而更好地捕捉长距离依赖关系。
- 简化架构：Transformer模型的提出简化了序列转换模型的架构，摒弃了复杂的循环和卷积结构，使得模型更加简单和高效。
实验结果
- 质量更优：在两个机器翻译任务上的实验表明，Transformer模型在翻译质量上优于现有的基于循环或卷积神经网络的模型。
- 并行化能力：由于完全基于注意力机制，Transformer模型具有更高的并行化能力，这意味着它可以在多个处理器上同时进行计算，从而显著减少训练时间。
- 训练时间减少：实验结果表明，Transformer模型的训练时间显著减少，这使得它在实际应用中更加可行。
具体性能指标
- BLEU分数：BLEU（Bilingual Evaluation Understudy）分数是衡量机器翻译质量的一个常用指标。Transformer模型在WMT 2014英德翻译任务上达到了28.4的BLEU分数，在英法翻译任务上达到了41.0的BLEU分数，这些分数都显著高于现有最佳结果。
- 训练成本：Transformer模型在八个GPU上训练3.5天后，达到了41.0的BLEU分数，这是文献中最佳模型训练成本的一小部分，表明Transformer模型不仅性能优异，而且训练成本较低。
总结
- Transformer模型的提出在自然语言处理领域产生了深远的影响，它不仅简化了序列转换模型的架构，提高了模型的性能和并行化能力，还显著减少了训练时间，使得机器翻译等任务更加高效和可行。

5、总结分析

在这里插入图片描述

（1）翻译

在这项工作中，我们提出了Transformer，这是一种完全基于注意力机制的序列转换模型，它用多头自注意力机制取代了编码器-解码器架构中最常用的循环层。对于翻译任务，Transformer的训练速度显著快于基于循环或卷积层的架构。在WMT 2014英德翻译任务和WMT 2014英法翻译任务上，我们达到了新的最高水平。在前一个任务中，我们的最佳模型甚至超过了所有先前报告的集成模型。
我们对基于注意力机制的模型的未来感到兴奋，并计划将它们应用于其他任务。我们计划将Transformer扩展到涉及文本以外输入和输出模态的问题，并研究局部、受限的注意力机制，以有效处理大型输入和输出，如图像、音频和视频。使生成过程更少依赖于序列性是我们的另一个研究目标。我们用于训练和评估模型的代码可在 https://github.com/tensorflow/tensor2tensor 上获取。

（2）分析

Transformer模型的创新点
- 完全基于注意力机制：Transformer模型是第一个完全基于注意力机制的序列转换模型，它摒弃了传统的循环层，这在当时是一个大胆的创新。
- 多头自注意力机制：Transformer模型使用了多头自注意力机制，这使得模型能够同时关注输入序列中的不同部分，从而更好地捕捉长距离依赖关系。
Transformer模型的优势
- 训练速度快：Transformer模型的训练速度显著快于基于循环或卷积层的架构，这使得它在实际应用中更加高效。
- 性能优异：在WMT 2014英德翻译任务和英法翻译任务上，Transformer模型达到了新的最高水平，甚至超过了所有先前报告的集成模型。
未来研究方向
- 扩展到其他任务：作者计划将Transformer模型扩展到涉及文本以外输入和输出模态的问题，如图像、音频和视频。
- 研究局部、受限的注意力机制：为了有效处理大型输入和输出，作者计划研究局部、受限的注意力机制。
- 减少生成过程的序列性：使生成过程更少依赖于序列性是作者的另一个研究目标，这可能会进一步提高模型的效率和灵活性。
代码开源
- 代码获取：作者提供了用于训练和评估模型的代码，这使得其他研究人员可以复现实验结果，或者基于这些代码进行进一步的研究和开发。
  总的来说，Transformer模型的提出在自然语言处理领域产生了深远的影响，它不仅在机器翻译任务上取得了优异的性能，还为未来的研究提供了新的方向和思路。

6、部分图表

在这里插入图片描述
图表展示了Transformer模型的架构，这是一种用于处理序列数据的深度学习模型，广泛应用于自然语言处理任务，如机器翻译。以下是对该图表的详细分析：

输入和输出
- 输入（Inputs）：模型接收输入序列，这些输入首先通过一个嵌入层（Input Embedding），将词汇映射到高维空间中的向量表示。
- 输出（Outputs）：模型的输出是经过处理的序列，用于预测下一个词或进行翻译等任务。输出序列在图中显示为“Outputs (shifted right)”，意味着输出序列相对于输入序列有一个位置的偏移，这是为了在训练过程中正确对齐输出。
位置编码（Positional Encoding）
- 输入和输出的嵌入向量都会加上位置编码，以提供序列中每个元素的位置信息。这对于模型理解序列的顺序非常重要。
编码器（Encoder）
- 编码器由多个相同的层（图中表示为Nx）堆叠而成，每层包括两个主要部分：
- 多头自注意力（Multi-Head Attention）：允许模型在处理一个元素时关注输入序列中的其他元素，从而捕捉序列内部的依赖关系。
- 前馈网络（Feed Forward）：一个简单的全连接网络，用于进一步处理经过注意力机制的数据。
- 每个子层（自注意力和前馈网络）的输出都会通过一个残差连接（Add & Norm），然后进行层归一化（Normalization）。这种结构有助于避免深层网络中的梯度消失问题。
解码器（Decoder）
- 解码器也由多个相同的层（图中表示为Nx）堆叠而成，每层包括三个主要部分：
- 掩码多头自注意力（Masked Multi-Head Attention）：类似于编码器中的自注意力，但增加了掩码（Masking）以防止模型在预测下一个词时看到未来的信息。
- 多头注意力（Multi-Head Attention）：这部分关注编码器的输出，允许解码器利用编码器提供的信息。
- 前馈网络（Feed Forward）：与编码器中的前馈网络类似，用于进一步处理数据。
- 同样，每个子层的输出都会通过残差连接和层归一化。
输出层
- 解码器的最终输出通过一个线性层和一个Softmax层，转换为输出概率分布，用于预测下一个词。
总结
- Transformer模型通过使用注意力机制和并行处理能力，显著提高了处理序列数据的效率和效果。它的架构设计允许模型在捕捉长距离依赖关系的同时，保持较高的计算效率。这种模型已经成为自然语言处理领域的一个基石，对后续的研究和应用产生了深远的影响。

在这里插入图片描述
图表展示了Transformer模型中的两种注意力机制：缩放点积注意力（Scaled Dot-Product Attention）和多头注意力（Multi-Head Attention）。

缩放点积注意力（左图）

输入：
- ( Q )（Query，查询）：表示当前需要关注的信息。
- ( K )（Key，键）：用于与查询进行匹配，找出相关信息。
- ( V )（Value，值）：实际需要关注的信息内容。
计算过程：
- MatMul（矩阵乘法）：首先计算查询 ( Q ) 和键 ( K ) 的点积，衡量它们之间的相似度。
- Scale（缩放）：由于点积的结果可能会非常大，因此需要除以 ( \sqrt{d_k} )（其中 ( d_k ) 是键向量的维度），进行缩放以稳定训练过程。
- Mask（可选）：在某些情况下（如解码器的自回归特性），需要掩盖未来位置的信息，防止模型在预测当前词时看到未来的词。
- SoftMax：将缩放后的结果通过SoftMax函数，转换为概率分布，表示每个值的重要性。
- MatMul：最后，将概率分布与值 ( V ) 进行矩阵乘法，得到加权的输出。

多头注意力（右图）

输入：
- 与缩放点积注意力相同，输入也是 ( Q )、( K ) 和 ( V )。
计算过程：
- Linear（线性变换）：首先，通过线性变换将 ( Q )、( K ) 和 ( V ) 分别映射到不同的表示空间。
- 并行的缩放点积注意力：将映射后的 ( Q )、( K ) 和 ( V ) 输入到 ( h ) 个并行的缩放点积注意力层中，每个头可以关注输入的不同部分。
- Concat（拼接）：将 ( h ) 个注意力头的输出拼接在一起。
- Linear（线性变换）：最后，通过一个线性层将拼接后的结果映射回原始维度，得到最终的多头注意力输出。

总结

缩放点积注意力：通过计算查询和键的点积，衡量它们之间的相似度，然后通过SoftMax函数得到概率分布，最后加权求和得到输出。它是一个基础的注意力机制。
多头注意力：通过并行的多个缩放点积注意力层，模型可以同时关注输入的不同部分，从而捕捉更丰富的信息。多头注意力是Transformer模型的核心创新之一，它显著提高了模型的表达能力和灵活性。

这种注意力机制的设计使得Transformer模型能够高效地处理序列数据，捕捉长距离依赖关系，并且在各种自然语言处理任务中取得了优异的性能。

7、引言分析

（1）翻译

1 引言

循环神经网络（RNN）、长短期记忆网络（LSTM）[12]以及门控循环单元（GRU）[7]神经网络，特别是后者，已经被确立为序列建模和转换问题（如语言建模和机器翻译[29, 2, 5]）的最先进的方法。此后，众多研究继续推动循环语言模型和编码器-解码器架构[31, 21, 13]的边界。

循环模型通常根据输入和输出序列的符号位置来分解计算。将这些位置与计算步骤对齐，它们生成一系列隐藏状态 $h_t$ ，作为前一个隐藏状态 $h_{t-1}$ 和位置 $t$ 的输入的函数。这种固有的序列性质阻碍了训练样本内的并行化，这在更长的序列长度下变得至关重要，因为内存限制了跨样本的批处理。最近的工作通过分解技巧[18]和条件计算[26]显著提高了计算效率，同时也在后者的情况下提高了模型性能。然而，顺序计算的基本限制仍然存在。

注意力机制已经成为各种任务中引人入胜的序列建模和转换模型的一个组成部分，允许模型不考虑它们在输入或输出序列中的距离来建模依赖关系[2, 16]。然而，在几乎所有情况下[22]，这种注意力机制都是与循环网络结合使用的。

在这项工作中，我们提出了Transformer，这是一种模型架构，它避免了循环，而是完全依赖于注意力机制来绘制输入和输出之间的全局依赖关系。Transformer允许显著更多的并行化，并且在仅在八个P100 GPU上训练12小时后，就能达到翻译质量的新水平。

（2）分析

这段引言主要介绍了循环神经网络（RNN）及其变体（如LSTM和GRU）在序列建模和转换任务中的重要性和应用。这些网络通过时间的递归连接来处理序列数据，但存在一些局限性，如难以并行计算和处理长距离依赖关系。

为了解决这些问题，研究者们引入了注意力机制，它允许模型在处理序列时关注不同位置之间的关系，从而更好地捕捉长距离依赖关系。然而，大多数情况下，注意力机制是与循环网络结合使用的，这仍然存在一些限制。

Transformer模型的提出是为了克服这些限制。它完全摒弃了循环结构，转而使用注意力机制来处理序列数据。这种设计使得模型能够更好地并行化，从而显著提高了计算效率。实验结果表明，Transformer模型在机器翻译任务上取得了优异的性能，甚至超过了之前的最佳模型。

总的来说，这段引言强调了Transformer模型的创新性和重要性，它为自然语言处理领域带来了新的可能性和研究方向。

8、全部标题

Abstract
摘要
1 Introduction
1 引言
2 Background
2 背景
3 Model Architecture
3 模型架构
- 3.1 Encoder and Decoder Stacks
  3.1 编码器和解码器堆栈
- 3.2 Attention
  3.2 注意力
  - 3.2.1 Scaled Dot-Product Attention
    3.2.1 缩放点积注意力
  - 3.2.2 Multi-Head Attention
    3.2.2 多头注意力
  - 3.2.3 Applications of Attention in our Model
    3.2.3 注意力在我们的模型中的应用
- 3.3 Position-wise Feed-Forward Networks
  3.3 位置前馈网络
- 3.4 Embeddings and Softmax
  3.4 嵌入和Softmax
- 3.5 Positional Encoding
  3.5 位置编码
4 Why Self-Attention
4 为什么使用自注意力
5 Training
5 训练
- 5.1 Training Data and Batching
  5.1 训练数据和批处理
- 5.2 Hardware and Schedule
  5.2 硬件和时间表
- 5.3 Optimizer
  5.3 优化器
- 5.4 Regularization
  5.4 正则化
6 Results
6 结果
- 6.1 Machine Translation
  6.1 机器翻译
- 6.2 Model Variations
  6.2 模型变体
7 Conclusion
7 结论
References
参考文献
Acknowledgements
致谢

9、参考文献

Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E Hinton. Layer normalization. arXiv preprint arXiv:1607.06450, 2016.
吉米·莱·巴，杰米·瑞安·基罗斯，和杰弗里·E·辛顿。层归一化。arXiv预印本 arXiv:1607.06450，2016年。
Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. Neural machine translation by jointly learning to align and translate. CoRR, abs/1409.0473, 2014.
德米特里·巴赫达诺，景勋·乔，和约书亚·本吉奥。通过联合学习对齐和翻译的神经机器翻译。CoRR，abs/1409.0473，2014年。
Denny Britz, Anna Goldie, Minh-Thang Luong, and Quoc V. Le. Massive exploration of neural machine translation architectures. CoRR, abs/1703.03906, 2017.
丹尼·布里茨，安娜·戈德，明唐·隆，和吴克。神经机器翻译架构的大规模探索。CoRR，abs/1703.03906，2017年。
Jianpeng Cheng, Li Dong, and Mirella Lapata. Long short-term memory-networks for machine reading. arXiv preprint arXiv:1601.06733, 2016.
程建鹏，李东，和米雷拉·拉帕塔。用于机器阅读的长短期记忆网络。arXiv预印本 arXiv:1601.06733，2016年。
Kyunghyun Cho, Bart van Merrienboer, Caglar Gulcehre, Fethi Bougares, Holger Schwenk, and Yoshua Bengio. Learning phrase representations using rnn encoder-decoder for statistical machine translation. CoRR, abs/1406.1078, 2014.
景勋·乔，巴特·范·梅里恩博，卡格勒·古尔切雷，费特·布加雷斯，霍尔格·施文克，和约书亚·本吉奥。使用RNN编码器-解码器学习短语表示进行统计机器翻译。CoRR，abs/1406.1078，2014年。
Francois Chollet. Xception: Deep learning with depthwise separable convolutions. arXiv preprint arXiv:1610.02357, 2016.
弗朗索瓦·肖莱。Xception：使用深度可分离卷积的深度学习。arXiv预印本 arXiv:1610.02357，2016年。
Junyoung Chung, Çaglar Gülçehre, Kyunghyun Cho, and Yoshua Bengio. Empirical evaluation of gated recurrent neural networks on sequence modeling. CoRR, abs/1412.3555, 2014.
俊永·冲，查格勒·居尔切雷，景勋·乔，和约书亚·本吉奥。对序列建模中门控循环神经网络的实证评估。CoRR，abs/1412.3555，2014年。
Jonas Gehring, Michael Auli, David Grangier, Denis Yarats, and Yann N. Dauphin. Convolutional sequence to sequence learning. arXiv preprint arXiv:1705.03122v2, 2017.
乔纳斯·盖林，迈克尔·奥利，大卫·格拉尼耶，丹尼斯·亚拉茨，和扬·N·多芬。卷积序列到序列学习。arXiv预印本 arXiv:1705.03122v2，2017年。
Alex Graves. Generating sequences with recurrent neural networks. arXiv preprint arXiv:1308.0850, 2013.
亚历克斯·格雷夫斯。使用循环神经网络生成序列。arXiv预印本 arXiv:1308.0850，2013年。
Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 770–778, 2016.
何凯明，张祥雨，任少卿，和孙剑。用于图像识别的深度残差学习。在IEEE计算机视觉与模式识别会议论文集，页码770-778，2016年。
Sepp Hochreiter, Yoshua Bengio, Paolo Frasconi, and Jürgen Schmidhuber. Gradient flow in recurrent nets: the difficulty of learning long-term dependencies, 2001.
塞普·霍赫赖特，约书亚·本吉奥，保罗·弗拉索尼，和于尔根·施密德胡贝尔。循环网络中的梯度流：学习长期依赖的困难，2001年。
Sepp Hochreiter and Jürgen Schmidhuber. Long short-term memory. Neural computation, 9(8):1735–1780, 1997.
塞普·霍赫赖特和于尔根·施密德胡贝尔。长短期记忆。神经计算，9(8):1735-1780，1997年。
Rafal Jozefowicz, Oriol Vinyals, Mike Schuster, Noam Shazeer, and Yonghui Wu. Exploring the limits of language modeling. arXiv preprint arXiv:1602.02410, 2016.
拉法尔·约泽夫，奥里奥尔·维尼亚尔斯，迈克·舒斯特，诺姆·沙泽尔，和吴永辉。探索语言模型的极限。arXiv预印本 arXiv:1602.02410，2016年。
Łukasz Kaiser and Ilya Sutskever. Neural GPUs learn algorithms. In International Conference on Learning Representations (ICLR), 2016.
卢卡什·凯撒和伊利亚·苏茨克弗。神经GPU学习算法。在国际学习表示会议（ICLR），2016年。
Nal Kalchbrenner, Lasse Espeholt, Karen Simonyan, Aaron van den Oord, Alex Graves, and Koray Kavukcuoglu. Neural machine translation in linear time. arXiv preprint arXiv:1610.10099v2, 2017.
纳尔·卡尔克布伦纳，拉斯·埃斯佩霍尔特，凯伦·西蒙扬，亚伦·范·登·奥德，亚历克斯·格雷夫斯，和科拉伊·卡武克库奥卢。线性时间内的神经机器翻译。arXiv预印本 arXiv:1610.10099v2，2017年。
Yoon Kim, Carl Denton, Luong Hoang, and Alexander M. Rush. Structured attention networks. In International Conference on Learning Representations, 2017.
尹恩，卡尔·登顿，黄龙，和亚历山大·M·拉什。结构化注意力网络。在国际学习表示会议，2017年。
Diederik Kingma and Jimmy Ba. Adam: A method for stochastic optimization. In ICLR, 2015.
迪德里克·金马和吉米·巴。Adam：一种随机优化方法。在ICLR，2015年。
Oleksii Kuchaiev and Boris Ginsburg. Factorization tricks for LSTM networks. arXiv preprint arXiv:1703.10722, 2017.
奥列克西·库恰耶夫和鲍里斯·金斯堡。LSTM网络的分解技巧。arXiv预印本 arXiv:1703.10722，2017年。
Zhouhan Lin, Minwei Feng, Cicero Nogueira dos Santos, Mo Yu, Bing Xiang, Bowen Zhou, and Yoshua Bengio. A structured self-attentive sentence embedding. arXiv preprint arXiv:1703.03130, 2017.
林周涵，冯敏伟，西塞罗·诺盖拉·多斯桑托斯，余墨，项冰，周博文，和约书亚·本吉奥。结构化自注意力句子嵌入。arXiv预印本 arXiv:1703.03130，2017年。
Samy Bengio Łukasz Kaiser. Can active memory replace attention? In Advances in Neural Information Processing Systems, (NIPS), 2016.
萨米·本吉奥和卢卡什·凯撒。活跃记忆能替代注意力吗？在神经信息处理系统进展（NIPS），2016年。
Minh-Thang Luong, Hieu Pham, and Christopher D Manning. Effective approaches to attention-based neural machine translation. arXiv preprint arXiv:1508.04025, 2015.
明唐·隆，裴修，和克里斯托弗·D·曼宁。基于注意力的神经机器翻译的有效方法。arXiv预印本 arXiv:1508.04025，2015年。
Ankur Parikh, Oscar Täckström, Dipanjan Das, and Jakob Uszkoreit. A decomposable attention model. In Empirical Methods in Natural Language Processing, 2016.
安库尔·帕里克，奥斯卡·塔克斯特罗姆，迪潘简·达斯，和雅各布·乌斯科尔特。可分解的注意力模型。在自然语言处理的实证方法，2016年。
Romain Paulus, Caiming Xiong, and Richard Socher. A deep reinforced model for abstractive summarization. arXiv preprint arXiv:1705.04304, 2017.
罗曼·保罗斯，熊才明，和理查德·索彻。用于摘要生成的深度强化模型。arXiv预印本 arXiv:1705.04304，2017年。
Oﬁr Press and Lior Wolf. Using the output embedding to improve language models. arXiv preprint arXiv:1608.05859, 2016.
奥弗·普雷斯和利奥尔·沃尔夫。使用输出嵌入改进语言模型。arXiv预印本 arXiv:1608.05859，2016年。
Rico Sennrich, Barry Haddow, and Alexandra Birch. Neural machine translation of rare words with subword units. arXiv preprint arXiv:1508.07909, 2015.
里科·森里奇，巴里·哈多，和亚历山德拉·比奇。使用子词单元的罕见词神经机器翻译。arXiv预印本 arXiv:1508.07909，2015年。
Noam Shazeer, Azalia Mirhoseini, Krzysztof Maziarz, Andy Davis, Quoc Le, Geoffrey Hinton, and Jeff Dean. Outrageously large neural networks: The sparsely-gated mixture-of-experts layer. arXiv preprint arXiv:1701.06538, 2017.
诺姆·沙泽尔，阿扎莉娅·米尔霍塞尼，克里斯托夫·马兹亚尔兹，安迪·戴维斯，吴克，杰弗里·辛顿，和杰夫·迪恩。极大神经网络：稀疏门控混合专家层。arXiv预印本 arXiv:1701.06538，2017年。
Nitish Srivastava, Geoffrey E Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. Dropout: a simple way to prevent neural networks from overﬁtting. Journal of Machine Learning Research, 15(1):1929–1958, 2014.
尼提什·斯里瓦斯塔瓦，杰弗里·E·辛顿，亚历克斯·克里热夫斯基，伊利亚·苏茨克弗，和鲁斯兰·萨拉胡特迪诺夫。Dropout：一种防止神经网络过拟合的简单方法。机器学习研究杂志，15(1):1929-1958，2014年。
Sainbayar Sukhbaatar, arthur szlam, Jason Weston, and Rob Fergus. End-to-end memory networks. In C. Cortes, N. D. Lawrence, D. D. Lee, M. Sugiyama, and R. Garnett, editors, Advances in Neural Information Processing Systems 28, pages 2440–2448. Curran Associates, Inc., 2015.
赛因巴亚尔·苏赫巴塔尔，亚瑟·斯拉姆，杰森·韦斯顿，和罗布·弗格斯。端到端记忆网络。在C.科尔特斯，N.D.劳伦斯，D.D.李，M.杉山，和R.加内特编辑的神经信息处理系统进展28，页码2440-2448。Curran Associates, Inc.，2015年。
Ilya Sutskever, Oriol Vinyals, and Quoc VV Le. Sequence to sequence learning with neural networks. In Advances in Neural Information Processing Systems, pages 3104–3112, 2014.
伊利亚·苏茨克弗，奥里奥尔·维尼亚尔斯，和吴克。使用神经网络的序列到序列学习。在神经信息处理系统进展，页码3104-3112，2014年。
Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jonathon Shlens, and Zbigniew Wojna. Rethinking the inception architecture for computer vision. CoRR, abs/1512.00567, 2015.
克里斯蒂安·塞格迪，文森特·范霍克，谢尔盖·伊奥费，乔纳森·施伦斯，和兹比格涅夫·沃伊纳。重新思考计算机视觉的Inception架构。CoRR，abs/1512.00567，2015年。
Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey, et al. Google’s neural machine translation system: Bridging the gap between human and machine translation. arXiv preprint arXiv:1609.08144, 2016.
吴永辉，迈克·舒斯特，陈志峰，吴克，穆罕默德·诺鲁齐，沃尔夫冈·马切雷，马西姆·克里昆，曹源，高勤，克劳斯·马切雷等。谷歌的神经机器翻译系统：弥合人机翻译之间的差距。arXiv预印本 arXiv:1609.08144，2016年。
Jie Zhou, Ying Cao, Xuguang Wang, Peng Li, and Wei Xu. Deep recurrent models with fast-forward connections for neural machine translation. CoRR, abs/1606.04199, 2016.
周杰，曹颖，王旭光，李鹏，和徐伟。具有快速前向连接的深度循环模型用于神经机器翻译。CoRR，abs/1606.04199，2016年。