当前位置: 首页 > article >正文

论文阅读笔记 attentation机制

前言

Abstract

序列转导模型基于复杂的递归或卷积神经网络,包括编码器和解码器,表现最佳的模型还通过注意力机制连接编码器和解码器。我们提出了一种新的简单网络架构,即Transformer,它完全基于注意力机制,完全消除了重复和卷积。在两个机器翻译任务上进行的实验表明,这些模型在质量上具有优势,同时具有更高的可并行性,并且所需的训练时间大大减少。我们的模型在WMT 2014英语到德语的翻译任务上达到了28.4 BLEU,比包括集成学习在内的现有最佳结果提高了2 BLEU。在2014年WMT英语到法语翻译任务中,我们的模型在八个GPU上进行了3.5天的训练后,创造了新的单模型最新BLEU分数41.8,比文献中最好的模型的训练成本更小。我们展示了Transformer通过将其成功应用于具有大量训练数据和有限训练数据的英语解析,将其很好地概括了其他任务。

Introduction

在Transformer出现之前,RNN、LSTM、GRU等在序列模型和转导问题的方法中占据了稳固的地位,比如语言模型、机器翻译等,人们一直在努力扩大循环语言模型和编码器-解码器体系结构的界限。递归模型通常沿输入和输出序列的符号位置考虑计算。将位置与计算时间中的步骤对齐,它们根据先前的隐藏状态ht-1和位置t的输入生成一系列隐藏状态ht。这种固有的顺序性导致


http://www.kler.cn/news/367279.html

相关文章:

  • 论文笔记(五十一)Challenges for Monocular 6-D Object Pose Estimation in Robotics
  • 【LeetCode】11.盛最多水的容器
  • 代码随想录算法训练营第46期Day37,38,39,41
  • 基于SSM轻型卡车零部件销售系统的设计
  • API接口开放与安全管控 - 原理与实践
  • 【Linux 从基础到进阶】数据库高可用与灾备方案
  • 三,Linux基础环境搭建(CentOS7)- 安装Hadoop
  • Intelij IDEA通过Maven部署一个Tomcat的JavaWeb项目
  • Vue3用户关注与粉丝列表展示
  • 前端页面手机端触摸屏操作
  • 【C/C++ explicit关键字】为什么有了explicit关键字的构造函数 就不能再有 其无参构造函数
  • 神经架构搜索:自动化设计神经网络的方法
  • Mysql5.7变为GreatSQL 8.0.32-25过程中,SQL语句报错及解决方案
  • 原生页面引入Webpack打包JS
  • uniApp 加载google地图 并规划路线
  • 仕考网:25年初级会计师备考建议
  • 十分钟了解Android Handler、Looper、Message
  • Java虚拟机:JVM介绍
  • 微服务与多租户详解:架构设计与实现
  • Spring微服务学习笔记之Spring Cloud Alibaba远程服务调用实战
  • 基于SSM的儿童教育网站【附源码】
  • 【华为HCIP实战课程二十三】中间到中间系统协议IS-IS原理与配置详解,网络工程师
  • 霜降时节,网络防护也需“御寒”
  • 【LeetCode:43. 字符串相乘 + 模拟】
  • 408算法题leetcode--第38天
  • Promise、async、await 、异步生成器的错误处理方案