Mixture of Experts 的数学原理（~2026 文献综述）

Tue, 12 May 2026 13:23:57 +0000

引言

在第一篇文章 MLP 与 BP 算法的数学原理中，我们简单地推导并实践了神经网络的基础——BP 算法。

在第二篇文章经典注意力与经典 Transformer 的数学原理中，我们梳理了从 RNN & BPTT、Seq2Seq、注意力机制再到经典 Transformer 的时间线，并详细地在其底层数学原理的层次上进行了推导与分析。

本文将在前两篇文章的基础上，借助多篇或经典或前沿的文献梳理 MoE（Mixture of Experts，混合专家模型）的基础理论。如果说，BP 算法使得我们能够构造可训练的前馈神经网络，注意力与 Transformer 使得我们拥有了一种强大的序列模型范式，那么 MoE 就是 Transformer 从「小模型」真正迈向「大模型」的关键一招。

Dense Scaling 的瓶颈

在大模型领域，有一条被称为 Scaling Law（缩放定律，参见 2020 年 Kaplan 等人的研究 Scaling Laws for Neural Language Models）的经验定律：模型性能（例如训练损失）随投入资源（例如参数量）的增加而平滑提升，且遵循幂律关系。这是在众多大型实验室的实践中得出的经验总结。

$$ Loss(C) \approx \left( \frac{C_{\text{min}}}{C} \right)^{\alpha} \tag{1} $$

其中 $C$ 表示训练计算量（FLOPs），$\alpha$ 为缩放指数（通常取值 $0.05\sim0.1$），$C_{\text{min}}$ 则为一个常数。Scaling Law 表明，要提升模型的性能，一个可行的方案就是提高模型的参数规模。但同时 Scaling Law 也为我们估计了一个残酷的代价：要使损失降低 $n$ 倍，需要付出 $n^{\frac1{\alpha}}$ 倍的计算开销。即，参数规模的边际收益是递减的，但我们又不得不面对这个现实。

MoE on 二三事

Mixture of Experts 的数学原理（~2026 文献综述）

引言

Dense Scaling 的瓶颈