当前位置: 首页 > article >正文

xLSTM 阅读笔记

xLSTM

论文发表日期:2024. 05. 07
论文地址:https://arxiv.org/pdf/2405.04517

xLSTM结构可视化
XLSTM的结构组成
我们可以从第一部分看出来:
RNN 循环神经网络,希望记住所有的信息,也会导致更多信息的丢失(遗忘)
LSTM:设计一个记忆细胞,选择性的遗忘,也是选择性的记忆保 留
LSTM是一个记忆单元,这里看看
LSTM原文
或者看一下线少一点的版本。
双进双出的lstm简画

摘要

在20世纪90年代,the constant error carousel 和 gating 被引入,作为长短期记忆(LSTM)的中心思想。从那时起,lstm经受住了时间的考验,并为许多深度学习的成功做出了贡献,特别是它们构成了第一个大型语言模型(llm)。然而,以可并行化的自注意力为核心的Transformer技术的出现,标志着一个新时代的黎明,在规模上超过了lstm。现在我们提出了一个简单的问题:当将lstm扩展到数十亿参数,利用现代llm的最新技术,但减轻lstm的已知限制时,我们在语言建模方面能够走多远?首先,我们引入了适当的指数门化和稳定技术。其次,我们对LSTM内存结构进行了修改,得到: (i) 具有标量内存、标量更新和新内存混合的sLSTM,(ii)完全可并行使用矩阵内存和协方差更新规则的mLSTM。这些LSTM扩展集成到残余块主干中,将生成xLSTM块,然后将这些块剩余地堆叠到xLSTM架构中。与最先进的transformer和状态空间模型相比,xLSTM的性能和扩展方面都表现良好。


http://www.kler.cn/a/428549.html

相关文章:

  • java开发,IDEA转战VSCODE配置(mac)
  • Swift语言的学习路线
  • 【深度学习】Java DL4J 2024年度技术总结
  • EAMM: 通过基于音频的情感感知运动模型实现的一次性情感对话人脸合成
  • cuda从零开始手搓PB神经网络
  • python_在钉钉群@人员发送消息
  • 日本IT|企业需要什么样的技术?
  • 处理后端返回的时间格式问题
  • MySQL -- CURD(下)
  • AUTOSAR CP复杂驱动程序(Complex Driver,CDD)的设计与集成指南导读
  • 动态规划子序列问题系列一>最长递增子序列
  • 用Python开发“迷你井字棋”小游戏
  • find命令深度详解
  • 计算机视觉:学习指南
  • 【python 批量将PPT中各种东西保存为图片 没有水印】
  • 在 Spring Boot 中使用 JPA(Java Persistence API)进行数据库操作
  • Telnet不安全?如何配置使用更安全的STelnet远程登录华为AR1000V路由器?
  • docker修改并迁移存储至数据盘
  • C语言求斐波那契数(不考虑溢出)(递归+迭代)
  • mobi文件转成pdf
  • App自动化测试用例的录制与编写
  • 服务器被ping的风险,如何开启和禁止ping?
  • 国内有什么AI软件可供使用
  • k8s 之 StatefulSet
  • 力扣100题--移动零
  • C++打造局域网聊天室第四课: 动态启用或禁用窗口及MFC消息映射机制