Algorithms

算法

3 篇

2026.05.12
Mixture of Experts 的数学原理（~2026 文献综述） M
依 MoE 演进时间线，以文献综述的形式梳理大模型 MoE 算法的理论发展。
MoE
2026.03.22
经典注意力与经典 Transformer 的数学原理 M
从 RNN、BPTT 到 Attention 与 Transformer 的数学原理，系统分析梯度传播、Self-Attention、因果掩码与 KV Cache 等机制的理论逻辑。
Transformer
2024.12.08
MLP 与 BP 算法的数学原理 M
推导并实践 BP 算法。类似 Pytorch 中的定义实现一个 MLP，该 MLP 支持通过计算图进行自动微分与反向传播，并对自动微分机制给出微积分推导证明。
神经网络