MOE框架详解与实现
1. 简介
MoE 是一种将多个子模型(专家)结合的技术,用于提升大语言模型(LLMs)性能。它主要由稀疏 MoE 层和门控网络(路由)组成。稀疏 MoE 层替代传统 Transformer 中的前馈神经网络(FFN)层,包含多个独立的专家网络,每个专家都是一个 FFN。门控网络负责决定输入的 token 被发送到哪个或哪些专家进行处理,其决策过程基于学习的参数,并与网络其他部分一起进行预训练。
2. MOE 细节设计
- MoE 层构成:每个 MoE 层通常由一组 N 个专家网络和一个门控网络组成。门控网络一般由 softmax 函数线性层构成,作用是将输入 Token 引导至合适的专家网络。
- 替换 FFN 的原因:随着模型规模扩大,FFN 计算需求剧增,MoE 层替换 FFN 层能够节省算力,同时提升模型能力。
- 结构分类