当前位置: 首页 > article >正文

dl笔记:MOE

1 moe介绍

混合专家模型主要由两个关键部分组成

  • 稀疏MoE 层
    • 这些层代替了传统 Transformer 模型中的前馈网络 (FFN) 层
    • MoE 层包含若干“专家”,每个专家本身是一个独立的神经网络。
      • 通常是参数更少的前馈网络 (FFN)
      • 甚至可以是 MoE 层本身,从而形成层级式的 MoE 结构
  • 门控网络(路由)
    • ​​​​​​​用于决定哪些令牌 (token) 被发送到哪个专家

 特点 

  • 与稠密模型相比, 预训练速度更快
    • 在相同的计算预算条件下,可以显著扩大数据集的规模
  • 与具有相同参数数量的模型相比,具有更快的 推理速度
    • ​​​​​​​推理阶段只使用moe的一部分,有些参数是用不上的
  • 在 微调方面存在诸多挑战
    • ​​​​​​​​​​​​​​在微调阶段往往面临泛化能力不足的问题,长期以来易于引发过拟合现象
  • 令牌存在负载均衡的挑战
    • 在训练过程中,门控网络往往倾向于主要激活相同的几个专家。
      • 这种情况可能会自我加强,因为受欢迎的专家训练得更快,因此它们更容易被选择。
    • ——>解决方法有:
      • 引入辅助损失,旨在鼓励给予所有专家相同的重要性
      • 给每个专家处理令牌的阈值

http://www.kler.cn/a/458176.html

相关文章:

  • [CTF/网络安全] 攻防世界 simple_php 解题详析
  • 实战设计模式之建造者模式
  • 微信小程序滑动解锁、滑动验证
  • 数字货币支付系统开发搭建:构建未来的区块链支付生态
  • NSGA-II(非支配排序遗传算法II)详解与实现
  • springboot集成阿里云短信服务
  • 人工智能知识分享第三天-机器学习中交叉验证和网格搜索
  • uniapp不能直接修改props的数据原理浅析
  • 《Virt A Mate(VAM)》免安装豪华版v1.22中文汉化整合
  • Nacos配置管理+共享配置、配置热更新
  • [Unity Shader][Unity Shader][图形渲染]Shader数学基础19-选择使用3×3或4×4变换矩阵的技巧
  • 音视频入门基础:MPEG2-TS专题(23)——通过FFprobe显示TS流每个packet的信息
  • 设计宝藏解压密码
  • 单片机优先级
  • Java实现简单爬虫——爬取疫情数据
  • 定义Shape:打造属于你的独特图形
  • YOLOv10目标检测-训练自己的数据
  • LAION-SG:一个大规模、高质量的场景图结构注释数据集,为图像-文本模型训练带来了革命性的进步。
  • leecode377.组合总和IV
  • 【MySQL】十三,关于MySQL的全文索引
  • jangow靶机
  • 【探花交友】day01—项目介绍与环境搭建
  • 10道JavaWeb常问面试题
  • Dify服务器部署教程
  • Python中构建终端应用界面利器——Blessed模块
  • QT笔记- QTreeView + QFileSystemModel 当前位置的保存与恢复 #选中 #保存当前索引