当前位置：首页 > article >正文

MOE框架详解与实现

article 2025/3/25 10:57:47

1. 简介

MoE 是一种将多个子模型（专家）结合的技术，用于提升大语言模型（LLMs）性能。它主要由稀疏 MoE 层和门控网络（路由）组成。稀疏 MoE 层替代传统 Transformer 中的前馈神经网络（FFN）层，包含多个独立的专家网络，每个专家都是一个 FFN。门控网络负责决定输入的 token 被发送到哪个或哪些专家进行处理，其决策过程基于学习的参数，并与网络其他部分一起进行预训练。

2. MOE 细节设计

MoE 层构成：每个 MoE 层通常由一组 N 个专家网络和一个门控网络组成。门控网络一般由 softmax 函数线性层构成，作用是将输入 Token 引导至合适的专家网络。
替换 FFN 的原因：随着模型规模扩大，FFN 计算需求剧增，MoE 层替换 FFN 层能够节省算力，同时提升模型能力。
结构分类

查看全文

http://www.kler.cn/a/598020.html