Transformer
1 篇- 2026.03.22经典注意力与经典 Transformer 的数学原理 M
从 RNN、BPTT 到 Attention 与 Transformer 的数学原理,系统分析梯度传播、Self-Attention、因果掩码与 KV Cache 等机制的理论逻辑。
Hare's Notebook
从 RNN、BPTT 到 Attention 与 Transformer 的数学原理,系统分析梯度传播、Self-Attention、因果掩码与 KV Cache 等机制的理论逻辑。