算法
3 篇- 2026.05.12Mixture of Experts 的数学原理(~2026 文献综述) M
依 MoE 演进时间线,以文献综述的形式梳理 MoE 算法的理论发展。限于篇幅,本文在 DeepSeekMoE 处结束。
- 2026.03.22经典注意力与经典 Transformer 的数学原理 M
从 RNN、BPTT 到 Attention 与 Transformer 的数学原理,系统分析梯度传播、Self-Attention、因果掩码与 KV Cache 等机制的理论逻辑。
- 2024.12.08MLP 与 BP 算法的数学原理 M
推导并实践 BP 算法。类似 Pytorch 中的定义实现一个 MLP,该 MLP 支持通过计算图进行自动微分与反向传播,并对自动微分机制给出微积分推导证明。