<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>MoE on 二三事</title><link>https://iharee.github.io/tags/moe/</link><description>Recent content in MoE on 二三事</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Tue, 12 May 2026 13:23:57 +0000</lastBuildDate><atom:link href="https://iharee.github.io/tags/moe/index.xml" rel="self" type="application/rss+xml"/><item><title>Mixture of Experts 的数学原理（~2026 文献综述）</title><link>https://iharee.github.io/algorithms/moe/</link><pubDate>Tue, 12 May 2026 13:23:57 +0000</pubDate><guid>https://iharee.github.io/algorithms/moe/</guid><description>&lt;h1 id="引言"&gt;引言&lt;/h1&gt;
&lt;p&gt;在第一篇文章 &lt;a href="https://iharee.github.io/2024/12/08/computational_graphs_and_mlp" style="color:#7799bb; font-weight: bold; &amp;:active{color:#0066cc;} &amp;:focus{color:#0066cc;}"&gt;MLP 与 BP 算法的数学原理&lt;/a&gt; 中，我们简单地推导并实践了神经网络的基础——BP 算法。&lt;/p&gt;
&lt;p&gt;在第二篇文章 &lt;a href="https://iharee.github.io/algorithms/attention_and_transformer" style="color:#7799bb; font-weight: bold; &amp;:active{color:#0066cc;} &amp;:focus{color:#0066cc;}"&gt;经典注意力与经典 Transformer 的数学原理&lt;/a&gt; 中，我们梳理了从 RNN &amp;amp; BPTT、Seq2Seq、注意力机制再到经典 Transformer 的时间线，并详细地在其底层数学原理的层次上进行了推导与分析。&lt;/p&gt;
&lt;p&gt;本文将在前两篇文章的基础上，借助多篇或经典或前沿的文献梳理 MoE（Mixture of Experts，混合专家模型）的基础理论。如果说，BP 算法使得我们能够构造可训练的前馈神经网络，注意力与 Transformer 使得我们拥有了一种强大的序列模型范式，那么 MoE 就是 Transformer 从「小模型」真正迈向「大模型」的关键一招。&lt;/p&gt;
&lt;h1 id="dense-scaling-的瓶颈"&gt;Dense Scaling 的瓶颈&lt;/h1&gt;
&lt;p&gt;在大模型领域，有一条被称为 Scaling Law（缩放定律，参见 2020 年 Kaplan 等人的研究 &lt;a href="https://arxiv.org/abs/2001.08361"&gt;Scaling Laws for Neural Language Models&lt;/a&gt;）的经验定律：模型性能（例如训练损失）随投入资源（例如参数量）的增加而平滑提升，且遵循幂律关系。这是在众多大型实验室的实践中得出的经验总结。
&lt;/p&gt;
$$
Loss(C) \approx \left( \frac{C_{\text{min}}}{C} \right)^{\alpha}
\tag{1}
$$&lt;p&gt;
其中 $C$ 表示训练计算量（FLOPs），$\alpha$ 为缩放指数（通常取值 $0.05\sim0.1$），$C_{\text{min}}$ 则为一个常数。Scaling Law 表明，要提升模型的性能，一个可行的方案就是提高模型的参数规模。但同时 Scaling Law 也为我们估计了一个残酷的代价：要使损失降低 $n$ 倍，需要付出 $n^{\frac1{\alpha}}$ 倍的计算开销。即，参数规模的边际收益是递减的，但我们又不得不面对这个现实。&lt;/p&gt;</description></item></channel></rss>