当前位置: 首页 > article >正文

论文笔记:Multi-Head Mixture-of-Experts

2024 neurips

1 背景

  • 稀疏混合专家(SMoE)可在不显著增加训练和推理成本的前提下提升模型的能力【比如Mixtral 8*7B,表现可以媲美LLaMA-2 70B】
    • 但它也有两个问题
      • 专家激活率低(下图左)
        • 在优化时只有一小部分专家会被激活
        • ——>在学习应对复杂任务的大量专家时,会出现性能次优和效果不佳的问题
      • 无法细粒度地分析单个 token 的多重语义概念【多义词/具有多重细节的图块】
  • ——>提出了多头混合专家(MH-MoE)
    • 采用了多头机制,可将每个输入 token 分成多个子 token
    • 然后将这些子 token 分配给一组多样化的专家并行处理,之后再无缝地将它们整合进原来的 token 形式
  • MH-MOE的优势
    • 专家激活率更高且扩展性更好
      • MH-MoE 能优化几乎所有专家,从而可以缓解专家激活率低的问题并大幅提升更大专家的使用率
    • 具有更细粒度的理解能力
      • MH-MoE 采用的多头机制会将子 token 分配给不同的专家,从而可以联合关注来自不同专家的不同表征空间的信息,最终获得更好更细粒度的理解能力。

2 方法

  • MH-MoE 的训练目标是最小化两个损失:针对具体任务的损失和辅助性的负载平衡损失。


http://www.kler.cn/a/546379.html

相关文章:

  • 数据库开发常识(10.6)——考量使用临时表及表连接写法(3)
  • 聊一聊FutureTask源码中体现的“自旋锁”思想
  • 10G EPON光模块
  • 【Matlab算法】基于人工势场的多机器人协同运动与避障算法研究(附MATLAB完整代码)
  • 交叉编译foxy版ros2部署到ARM上运行
  • Linux入侵检查流程
  • filebeat抓取nginx日志
  • Python实现文件夹监控:自动捕获并处理新增Excel文件,支持子文件夹遍历
  • 【Linux】Ubuntu Linux 系统——Node.js 开发环境
  • 利用IDEA将Java.class文件反编译为Java文件:原理、实践与深度解析
  • 如何查看 Linux 服务器的 MAC 地址:深入解析与实践指南
  • 《图解设计模式》笔记(九)避免浪费
  • 成为高级前端开发师需要掌握的技术
  • 模型过拟合怎么办
  • 力扣动态规划-30【算法学习day.124】
  • 查看notebook的jupyter token
  • 从Sora到有言:3D视频生成技术的突破与应用
  • WPF进阶 | 深入 WPF 依赖项属性:理解其强大功能与应用场景
  • 欧拉函数杂记
  • Python----PyQt开发(PyQt高级:手搓一个简单的记事本)