论文笔记:Multi-Head Mixture-of-Experts
2024 neurips
1 背景
- 稀疏混合专家(SMoE)可在不显著增加训练和推理成本的前提下提升模型的能力【比如Mixtral 8*7B,表现可以媲美LLaMA-2 70B】
- 但它也有两个问题
- 专家激活率低(下图左)
- 在优化时只有一小部分专家会被激活
- ——>在学习应对复杂任务的大量专家时,会出现性能次优和效果不佳的问题
- 无法细粒度地分析单个 token 的多重语义概念【多义词/具有多重细节的图块】
- 专家激活率低(下图左)
- 但它也有两个问题
- ——>提出了多头混合专家(MH-MoE)
- 采用了多头机制,可将每个输入 token 分成多个子 token
- 然后将这些子 token 分配给一组多样化的专家并行处理,之后再无缝地将它们整合进原来的 token 形式
- MH-MOE的优势
- 专家激活率更高且扩展性更好
- MH-MoE 能优化几乎所有专家,从而可以缓解专家激活率低的问题并大幅提升更大专家的使用率
- 具有更细粒度的理解能力
- MH-MoE 采用的多头机制会将子 token 分配给不同的专家,从而可以联合关注来自不同专家的不同表征空间的信息,最终获得更好更细粒度的理解能力。
- 专家激活率更高且扩展性更好
2 方法
- MH-MoE 的训练目标是最小化两个损失:针对具体任务的损失和辅助性的负载平衡损失。