0-指针网络(NIPS15)
文章目录
- Abstract
- 1 Introduction
- 2 模型
-
- 2.1 序列到序列模型
- 2.2 基于内容的输入注意力
- 2.3 Ptr-Net
- 3 动机和数据集结构
-
- 3.1 凸包
- 3.2 Delaunay三角剖分
- 3.3 旅行商问题(TSP)
- 4 Empirical Results
-
- 4.1架构和超参数
- 4.2 凸包
- 4.3 Delaunay三角剖分
- 4.4 旅行商问题
- 5 Conclusions
Abstract
我们介绍了一种新的神经网络架构,用于学习输出序列的条件概率,其中输出序列的元素是与输入序列中的位置相对应的离散标记。这类问题不能通过现有的方法如序列到序列[1]和神经图灵机[2]轻易解决,因为在输出的每一步中目标类别的数量取决于输入的长度,而输入长度是可变的。诸如排序可变大小序列和各种组合优化问题都属于这一类。我们的模型使用最近提出的神经注意力机制解决了输出字典大小可变的问题。它与之前的注意力尝试不同,在每个解码器步骤中,它不是使用注意力将编码器的隐藏单元混合到上下文向量中,而是使用注意力作为指针来选择输入序列的一个成员作为输出。我们称这种架构为指针网络(Ptr-Net)。我们展示了Ptr-Nets可以用来仅通过训练样本学习解决三个具有挑战性的几何问题——寻找平面凸包、计算Delaunay三角剖分和平面旅行商问题——的近似解。Ptr-Nets不仅在输入注意力的序列到序列上有所改进,而且还允许我们推广到可变大小的输出字典。我们展示了学习到的模型能够泛化到它们训练时的最大长度之外。我们希望我们在这些任务上的结果能鼓励对离散问题的神经学习进行更广泛的探索。
1 Introduction
循环神经网络(RNNsÿ