当前位置: 首页 > article >正文

大模型-模型架构-新型模型架构

1、主要解决的痛点

自注意力机制的计算效率问题

2、解决方案

基于参数化状态空间模型进行设计

3、优缺点
  • 优点:在长文本建模效率方面比Transformer有了大幅改进,同时保持了较好的序列建模能力
4、参数化状态空间模型
  • 介绍:一种动态时域模型,可以看作是循环神经网络和卷积神经网络的结合体
  • 特点:
    • 利用卷积计算对输入进行并行化计算
    • 利用前一个词元即可机型自回归预测
    • 常用来对长序列数据进行建模
  • 变种
    • 目的:保留计算效率基础上提升语言建模能力
    • 代表性模型:
      • Mamba
        • 原理:引入基于当前输入的信息选择机制
        • 优点:有更好的文本建模性能
        • 缺点:无法利用快速傅里叶变换实现高效卷积计算
      • RWKV
        • 原理:在每层计算中,使用词元偏移来代表词元表示
        • 优点:继承了Transformer的文本建模优势和RNN的计算效率
        • 缺点:训练过程中缺乏并行计算能力
      • RetNet
        • 原理:使用多尺度保留机制来代替多头自注意力模块
        • 优点:同时保留了循环计算和并行计算优点
      • Hyena
        • 原理:使用长卷积模块来替换Transformer架构中的注意力模块,从而借助卷积的快速傅里叶变换来提高计算效率

http://www.kler.cn/news/311967.html

相关文章:

  • 程序员常用开发软件集合
  • AirTest 基本操作范例和参数解释(一)
  • 第157天: 安全开发-Python 自动化挖掘项目SRC 目标FOFA 资产Web 爬虫解析库
  • 缓存穿透 问题(缓存空对象)
  • C++ 中std::promise和std::future基本使用
  • OpenCV基础入门30讲(Python)——第二讲 图像色彩转换
  • 卷积参数量计算公式
  • GO主流开源框架
  • python测试开发---js基础
  • 网工请注意!华为认证笔试考试系统升级公告!
  • Matlab Delany-Bazley和Miki模型预测多孔材料吸声性能
  • pprof简单使用
  • 五、I/O与网络编程-5.2、网络编程
  • 全国各省山峰分布SHP数据
  • 【深度学习】(3)--损失函数
  • git使用“保姆级”教程1——简介及配置项设置
  • Kafka基础概念
  • Vivado FIR IP 详解 (一)
  • yolo车位数据集
  • MATLAB 图像处理入门详解
  • 油烟机制造5G智能工厂物联数字孪生平台,推进制造业数字化转型
  • 2.计算机网络基础
  • C# 比较对象新思路,利用反射技术打造更灵活的比较工具
  • 基于 jenkins 的持续集成、持续部署方案
  • 自然语言处理入门:从基础概念到实战项目
  • 计算机毕业设计 教师科研信息管理系统的设计与实现 Java实战项目 附源码+文档+视频讲解
  • Redis性能测试redis-benchmark
  • ORACLE SAVEPOINT保存点
  • Vue 中常用的基础指令
  • 一、编译原理(引论)