当前位置：首页 > article >正文

深度学习架构：MOE架构

article 2025/3/11 0:16:00

🍃作者介绍：双非本科大四网络工程专业在读，阿里云专家博主，专注于Java领域学习，擅长web应用开发，目前开始人工智能领域相关知识的学习
🦅个人主页：@逐梦苍穹
📕所属专栏：人工智能
🌻gitee地址：xzl的人工智能代码仓库
✈ 您的一键三连，是我创作的最大动力🌹

MOE（Mixture of Experts，专家混合模型）是一种深度学习中的网络架构，

旨在通过动态选择部分专家（子模型）参与推理任务，从而提高模型的计算效率和性能。

MOE架构尤其适用于大型神经网络模型的训练和推理，它能够在保持高性能的同时，显著降低计算成本。

谷歌的Switch Transformer等模型便采用了MOE架构。

MOE模型通过门控机制（gating mechanism）在众多专家网络中选择少数几个与当前输入最相关的专家进行推理，而不是让所有专家都参与计算。这种选择性的激活方式使得MOE模型在处理大规模任务时更为高效。

1. MOE的核心思想

MOE的基本思想是将模型划分为多个专家网络，每个专家是一个子模型，而不是所有子模型都参与计算。

对于每个输入样本，模型会选择一小部分专家来处理输入，而其他专家保持不激活。

这个选择过程由一个门控网络（gating network）控制，它根据输入样本决定最相关的专家。

主要组件

综合公式为： $\sum_{i=1}^N \frac{\exp(W_g^T x)_i}{\sum_{j=1}^N \exp(W_g^T x)_j} E_i(x),(i,j \in {\text{Top-K}(G(x), k)})$

假设模型有 $N$ 个专家，每个专家都是一个子网络 $E_i(x)$ ，其中 $x$ 是输入。

MOE模型的输出可以表示为所有专家输出的加权和： $\sum_{i=1}^N G(x)_i E_i(x)$

其中， $G(x)_i$ 是门控网络为第 $i$ 个专家分配的权重，表示该专家对当前输入的贡献。

$G (x)$ 是门控网络生成的权重向量，通常通过 softmax 函数进行归一化，使得 $\sum_{i=1}^N G(x)_i = 1$ 。

门控网络 $G (x)$ 的作用是根据输入 $x$ 选择最合适的专家参与计算。

门控网络通常是一个小型的全连接网络，输入为 $x$ ，输出为长度为 $N$ 的权重向量。

每个权重代表对应专家的相关性。

门控网络的输出可以表示为： $G(x)_i = \frac{\exp(W_g^T x)_i}{\sum_{j=1}^N \exp(W_g^T x)_j}$

其中， $W_g$ 是门控网络的权重矩阵， $x$ 是输入， $G(x)_i$ 是专家 $i$ 的选择概率。

softmax函数确保所有专家的权重之和为1。

在实际应用中，为了提高效率，门控网络通常会限制只选择少数 $k$ 个专家来参与推理。例如，可以选择概率值最高的 $k$ 个专家，而其余专家的权重则被设为零。这样可以减少计算量，形成稀疏化选择。

MOE的一个关键特性是稀疏选择，具体而言，门控网络通常只会选择少数 $k$ 个专家(通常 $\ll N$ )，

即 $G (x)$ 是稀疏向量。

为了实现稀疏选择，可以采用Top-K算法，仅激活那些门控得分最高的专家：

$\{i \mid G(x)_i \in \text{Top } k \text{ largest values of } G(x)\}$

这种稀疏选择方式能够显著减少计算成本，因为每次推理只需激活 $k$ 个专家，而非所有专家。同时，这也减少了内存占用。

在训练MOE时，需要考虑两点：

稀疏性：由于每次只有少数专家被激活，训练过程中每个专家可能只接触到部分数据，这会导致某些专家的更新频率较低。因此，MOE模型训练时会设计特殊的损失函数，确保专家的利用率尽可能均衡。
负载均衡损失（Load Balancing Loss）：为了避免某些专家被频繁激活，而其他专家几乎不被使用，MOE引入了负载均衡损失项，鼓励所有专家都能在训练过程中被均衡使用。负载均衡损失的目标是让所有专家的激活次数接近相同。

一个常见的负载均衡损失函数是： $L_{\text{balance}} = \lambda \cdot \sum_{i=1}^N \left( \frac{1}{N} - \frac{1}{B} \sum_{b=1}^B G(x_b)_i \right)^2$

其中：

这个损失项鼓励门控网络让每个专家的激活频率接近于 $1/ N$ ，避免某些专家被频繁激活，而其他专家很少参与计算。

计算效率：通过稀疏选择机制，MOE架构避免了让所有专家都参与推理，降低了计算复杂度。实际中，MOE架构的计算量可以近似为 $\cdot n)$ ，其中 $k$ 是激活的专家数量， $n$ 是输入序列长度。
扩展性：MOE非常适合大规模模型。通过增加专家数量，可以扩大模型容量，而不显著增加每次推理的计算成本。这使得MOE特别适合用于超大规模语言模型，如Switch Transformer、GShard等。
灵活性：MOE能够根据输入动态选择专家，因此它具有灵活的模型结构，可以处理不同类型的任务和数据。