算法
3 篇- 2026.05.12Mixture of Experts 的数学原理(~2026 文献综述) M
依 MoE 演进时间线,以文献综述的形式梳理 MoE 算法的理论发展。限于篇幅,本文在 DeepSeekMoE 处结束。
- 2026.03.22经典注意力与经典 Transformer 的数学原理 M
从 RNN、BPTT 到 Attention 与 Transformer 的数学原理,系统分析梯度传播、Self-Attention、因果掩码与 KV Cache 等机制的理论逻辑。
- 2024.12.08MLP 与 BP 算法的数学原理 M
推导并实践 BP 算法。类似 Pytorch 中的定义实现一个 MLP,该 MLP 支持通过计算图进行自动微分与反向传播,并对自动微分机制给出微积分推导证明。
数学 & 统计
6 篇- 2026.05.27泛函分析与测度论视角下的方差缩减技术 M
在泛函分析与测度论的高观点上,重新讨论五种方差缩减技术:控制变量、对偶变量、分层抽样、Rao-Blackwellization 与重要性采样。
- 2023.07.10矩阵基础 M
线性代数 / 高等代数中的矩阵相关基础理论。
- 2023.05.16考研数学(微积分)(下) M
随笔 & 杂文
3 篇- 2026.01.07昨夜闲潭梦落花
2025 回忆录
- 2025.07.23PJSK 证书抓包教程
游戏《世界计划:缤纷舞台!》(《初音未来:缤纷舞台!》)用户资产数据抓包的详细流程。
- 2023.12.25考研感想
2023年12月24日,我结束了最后一门考研自命题专业课的考试。至此,半年考研历程正式暂告段落。
其他
2 篇- 2026.05.07Deep quantile and deep composite triplet regression M
从 Expected Shortfall 的不可诱导性出发,梳理 joint elicitability、proper scoring rule 与 Deep Composite Triplet Regression,并讨论神经网络如何学习 tail risk 与 conditional distribution structure。
- 2025.05.28Spring 框架学习研究札记