MoE（Mixture-of-Experts）简介

混合专家模型（Mixture-of-Experts，MoE）是机器学习与深度学习中常见的模型架构，尤其在近年来的大模型研究与应用中被广泛采用。
MoE 的核心思想是：通过门控（Gating）机制对多个专家子模型的输出进行加权组合，在保证模型容量的同时提升整体预测质量。

MoE 架构

MoE 主要由两部分组成：

MoE工作原理

MoE 的计算流程一般包括三个步骤：

这种“按需激活”的机制，使得模型能够实现“分工合作”，针对不同输入调用更合适的专家。

根据激活的专家数量，MoE 可分为两类：

稠密MoE：所有专家都参与到最终结果的加权集成

稀疏MoE：只有部分专家参与到最终结果的加权集成

在现代大模型中，Transformer 架构是基础。MoE 的常见用法是将标准 Transformer 中的前馈网络层（FFN）替换为稀疏 MoE 层：

Transformer 架构中的 FFN 层替换为稀疏 MoE 层

通过这一替换，模型既能保持大容量带来的表达能力，又能有效控制推理成本。因此，MoE 已成为“高容量、低计算”大模型设计中的核心组件之一。