二三事

泛函分析与测度论视角下的方差缩减技术

Wed, 27 May 2026 10:01:26 +0000

引言

方差缩减技术（VRT, Variance Reduction Techniques）是应用在蒙特卡洛方法（MC, Monte Carlo Method）中的一系列技术，旨在不单纯增大样本量而是通过统计技巧以降低估计量的方差，从而在相同计算量下提高估计精度。

设随机向量 $\boldsymbol{x}$ 的概率分布为 $p(\boldsymbol{x})$、被估计期望值等于 $\mu$ 的目标函数为 $f(\boldsymbol{x})$、样本总数为 $N$、$\boldsymbol{X}_i$ 为从总体 $\boldsymbol{X}$ 中独立抽取的第 $i$ 份样本，则蒙特卡洛模拟为

$$ \mu=\int f(\boldsymbol{x})p(\boldsymbol{x})\mathrm{d}\boldsymbol{x}\approx\frac1{N}\sum^N_{i=1}f(\boldsymbol{X}_i)=\hat{\mu}_{\text{MC}} $$

蒙特卡洛方法的成立是由辛钦大数定律（Khinchin’s Law）、科尔莫戈罗夫强大数定律（Kolmogorov’s Strong Law）与遍历定理（Ergodic Theorem）等大数定律所严格保证的。蒙特卡洛方法的本质思想十分朴素：用随机样本的平均值逼近总体的期望。

然而，许多情况下，或许是因为样本难以获得，或许是因为样本的采集成本昂贵，加之估计量的标准误 $\varepsilon\propto\frac1{\sqrt{N}}$ 的数学规律决定了单纯增加样本量对精度改进的效率低下，迫使我们考虑通过方差缩减技术以获得更精确的估计。

作为一系列诞生于统计计算领域的方法，方差缩减技术在供应链管理、期权定价与强化学习等诸多场景下被广泛使用。

对于蒙特卡洛方法而言，误差源于 $f(\boldsymbol{X})$ 的波动，而这种波动可被分解为函数值本身的随机性与采样测度、积分贡献区域的不匹配两种来源。站在更高的观点（泛函分析与测度论）下看，方差缩减机制可被归结为两类：

利用子空间中的向量抵消原向量中的一部分残差波动，降低不可解释的随机性；
测度变换，降低采样机制带来的随机性（重要性采样）。

第一种方差缩减机制可以按丢弃还是保留子空间的投影被进一步区分为两种：

丢弃子空间的投影（控制变量、对偶变量、分层抽样）；
保留子空间的投影（Rao-Blackwellization）。

第一种方差缩减机制还可以按如何生成子空间分类：

利用条件期望（分层抽样、Rao-Blackwellization）
其他（控制变量、对偶变量）

撰写本文的动机，是发现 PPO 中大量使用了重要性采样。

此外，若无特别说明，本文允许 $\boldsymbol{X}$ 为多维随机向量，但默认目标函数 $f(\boldsymbol{X})$ 为实值函数。

1. 控制变量 Control Variates

如果我们事先知道一个与 $f(\boldsymbol{X})$ 相关且期望 $\mu_g$ 已知的变量 $g(\boldsymbol{X})$，那么就可以从 $f(\boldsymbol{X})$ 估计量的波动中剔除能被 $g$ 解释的部分。

设 $\beta\in\mathbb{R}$ 为人为设定的系数，则修正估计量为

Mixture of Experts 的数学原理（~2026 文献综述）

Tue, 12 May 2026 13:23:57 +0000

引言

在第一篇文章 MLP 与 BP 算法的数学原理中，我们简单地推导并实践了神经网络的基础——BP 算法。

在第二篇文章经典注意力与经典 Transformer 的数学原理中，我们梳理了从 RNN & BPTT、Seq2Seq、注意力机制再到经典 Transformer 的时间线，并详细地在其底层数学原理的层次上进行了推导与分析。

本文将在前两篇文章的基础上，借助多篇或经典或前沿的文献梳理 MoE（Mixture of Experts，混合专家模型）的基础理论。如果说，BP 算法使得我们能够构造可训练的前馈神经网络，注意力与 Transformer 使得我们拥有了一种强大的序列模型范式，那么 MoE 就是 Transformer 从「小模型」真正迈向「大模型」的关键一招。

Dense Scaling 的瓶颈

在大模型领域，有一条被称为 Scaling Law（缩放定律，参见 2020 年 Kaplan 等人的研究 Scaling Laws for Neural Language Models）的经验定律：模型性能（例如训练损失）随投入资源（例如参数量）的增加而平滑提升，且遵循幂律关系。这是在众多大型实验室的实践中得出的经验总结。

$$ Loss(C) \approx \left( \frac{C_{\text{min}}}{C} \right)^{\alpha} \tag{1} $$

其中 $C$ 表示训练计算量（FLOPs），$\alpha$ 为缩放指数（通常取值 $0.05\sim0.1$），$C_{\text{min}}$ 则为一个常数。Scaling Law 表明，要提升模型的性能，一个可行的方案就是提高模型的参数规模。但同时 Scaling Law 也为我们估计了一个残酷的代价：要使损失降低 $n$ 倍，需要付出 $n^{\frac1{\alpha}}$ 倍的计算开销。即，参数规模的边际收益是递减的，但我们又不得不面对这个现实。

Deep quantile and deep composite triplet regression

Thu, 07 May 2026 16:20:46 +0000

文献解读背景

Tobias Fissler、Michael Merz 与 Mario V. Wüthrich 于 2021 年首先在 arXiv 发布预印本论文 Deep Quantile and Deep Composite Model Regression。随后于 2023 年正式发表于期刊 Insurance: Mathematics and Economics 第 109 卷（2023 年 3 月，Pages 94–112），论文标题调整为 Deep quantile and deep composite triplet regression。

带有 “补充” 的标题，是本文额外补充的内容；反之，则属于原文献中的内容。

其他方法的局限

OLS 以最小二乘函数作为损失函数，即 MSE，最优解为条件均值。

但金融和保险数据往往是重尾且偏态的，均值的代表性不足。

且最小二乘回归（OLS）假定上下误差对称，在该类数据场景下同样适用性有限。

对于 GLM，通常假设 $y$ 服从某个指数族分布（或 tweedie），相当于预先给定了条件分布的函数形式。

文献提到，真实保险理赔数据中，bulk 和 tail 从机制上有根本不同，以单一参数分布统一刻画二者并不恰当，比如没有考虑到协变量对 bulk 与 tail 的不同影响。

例如，保单持有人的年龄变量也许是解释小额赔案系统性影响的重要变量，但在解释大额赔案时却可能无关紧要。这种现象可能由从小额赔案到大额赔案时伤害类型的变化所隐含（事故保险），也可能由从小额保额到大额保额时行业细分的变化所隐含（工业火灾保险）；一个明确的例子见 Fung et al. (2022) 第 5.3 节。

而且 GLM 能直接指导的也是均值。

经典注意力与经典 Transformer 的数学原理

Sun, 22 Mar 2026 22:55:00 +0000

* 本文的部分示意图使用了 AI 辅助创作，其余有明确标注的示意图则引用自参考文献。

若无特别说明，本文中的单个向量默认视为列向量。比如，在 RNN、BPTT 与 Bahdanau Attention 部分，$\boldsymbol{x}_t,\boldsymbol{h}_t,\boldsymbol{s}_t,\boldsymbol{a}_t$ 等单个向量都按列向量书写。

而在 attention 与 Transformer 章节的矩阵记号中，为便于书写整段序列的矩阵乘法，序列矩阵统一按行堆叠：若第 $i$ 个 token 的表示向量为列向量 $\boldsymbol{x}_i$，则矩阵 $\boldsymbol{X}$ 的第 $i$ 行为 $\boldsymbol{x}_i^T$。相应地，$\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V}$ 的第 $i$ 行分别记为 $\boldsymbol{q}_i^T,\boldsymbol{k}_i^T,\boldsymbol{v}_i^T$。

Token 指模型处理数据的最小单位。在 CV（Computer Vision，计算机视觉）中常指图像切分后的 patch，在音频中指离散化的特征片段，而在 NLP（Natural Language Processing，自然语言处理）中则是指文本分词（字、词或子词）。本文后续所指的 token 均可以被理解为 NLP 范畴下的文本单元，token embedding 则是通过嵌入层将 token ID 映射至连续向量空间中的稠密语义表示。

RNN

背景引入

在前文 MLP 与 BP 算法的数学原理中，我们从数学上推导了普通 FFN（Feed-Forward Network，前馈神经网络）的误差反向传播算法，并最终编码实现了一个能够训练并完成分类任务的 MLP。

MLP（Multi-Layer Perceptron，多层感知机）是最经典、最基础的一种前馈神经网络，它只接受固定维度的张量 $\boldsymbol{x}$，并在经过内部若干层全连接层的非线性变换 $f(\boldsymbol{x})=\varphi(\boldsymbol{Wx}+\boldsymbol{b})$ 后，最终输出固定维度的张量 $\boldsymbol{y}$。对于能够确定输入与输出张量维度的任务，例如图像识别、缺陷检测等，输入输出张量维度固定是能够接受的。但是，对于序列数据，特别是那些具有强时间相关性的序列数据，譬如股票指数的时间序列、自然语言等，MLP 便显得力不从心了，主要体现在：

输入维度固定，意味着无法处理可变长序列；
固定维度与无记忆性的假设，使得模型更难捕捉到序列元素间的依赖关系。

一个简单的改进就是 RNN（Recurrent Neural Network，循环神经网络）。RNN 是一种基本的序列模型，下面介绍 RNN，并做简要的数学推导。

昨夜闲潭梦落花

Wed, 07 Jan 2026 23:33:55 +0000

　　过去一年也发生了许多事。

　　去年相当长一部分时间我都在疗养，所以并没有复学。由于治疗基本上每月只会经历一次，一次治疗过程又只占用两天时间，因此上半年的主旋律就是窝在家里想办法给自己找事情做，好让自己不要胡思乱想。

　　一直在家的日子，我在经常在很长一段时间内都不会出门，似乎身体都要因为长期晒不到太阳而生霉。与学校和社会都脱节太久，这种感觉真令人不安。那些无聊的时间里，我通过网课自学了数据结构、计算机网络和操作系统。同时也学习了一些 Java 知识，比如 Spring 开发。

　　从五月一号开始，大概是看着空间和朋友圈大家充实的五一假期活动而我却无处可去（这份情绪其实每次长假都会有），于是就开始通过做力扣算法题转移自己注意力。一整个五月份，我从起床开始直到进入梦乡，都在电脑面前坐着写力扣。像着魔似的，我想可能是没有人陪我打发时间的缘故，恰好转码也对数据结构算法有要求（来自刻板印象），那么我就做做算法题好了。一方面通过做算法题学习新知识的感受很棒，另一方面每当终于独立解决或是彻底弄清一道算法题也能带来十分及时的正反馈——这是在休学生活中相当匮乏的，于是我便一度“沉迷”于力扣，热情持续不减，这一下子就是整整五个月度。

　　在那几个月里，我做了一段时间的 PJSK bot。有时连着做了几天力扣，想暂时干干别的事，我就会用 Java 写写 bot。有出于实践 Java 的考量，但更多的还是“没事找事”。

　　时间一下就来到了十月。是的，去年的前九个月并没有什么好回忆的，每天像一具行尸走肉一样空有大把时间却不知如何使用，也没有人陪着我，想尽办法地打磨时光。很空虚，每天都在和自己情绪内耗，这么长的时间里我只有在法定长假才会和光、卜约着出门逛街，因为他俩只有此时才都有空。也就是这少得可怜的几次，就几乎是我在成都全部主动出门见光的机会了。

　　十月份开始我有点焦虑。那时 2025 年安排的疗程全部告一段落（是否康复直到今天都不知道，不过春节前后就是下一次做检查的时间了），我迫切地想要找份实习。起草简历、陆陆续续开始投递，我投递的目标基本上都是 Java 后端开发。结果可以用无人在意来形容，投递了大大小小的公司约 160 家，如果不算现在正就职的得物，只有星环和字节给了我面试机会。其中字节在一面就把我快速挂掉了，星环则问了些很基础的 Java 知识便让我去报道上班。

这投遍了简历却几乎没有面试机会的经历，真让人感到无助。

　　随后的十一月我来到了上海，入职了星环。匆匆忙忙签了三个月的租房合同，在松江与人合租，2500 / 月，光是中介费就一次性花掉了一千来块，现在想来真的很亏，因为不论是距离星环还是距离现在的得物都很远很远，价格还没多便宜。

来上海也有一个重要原因，就是在上海也有一些互联网社畜朋友，比如清水。见见活人，至少比家里继续蹲着无所事事好得多。

当然，也是因为我此前没有来过上海——如果不算转机。在家待得太久了，时不时换一个地方、同时也换一种生活方式吧，为生活制造一些新鲜感。

　　当然我更无法接受的是星环把我当外包整。再怎么说我也是在读 985 硕士生吧？入职那天我才知道我的工作不是在星环本部研发产品，而是被外派到浦发银行去做很低级的信创改造。在浦发做外包工作的每一天我都十分煎熬，处处都让我感到极度恶心，本身就是很没有价值的工作内容，银行内还有太多莫名其妙的条规制度，感受不到任何尊重。于是干了二十来天，我就愤然辞职了。

就连差不多时间入职的真正的外包同事在我跑路后也很快跑路了，她也受不了。

　　接着就进入了十二月。我大概是十二月第二周的星期三辞职的，恰好那段时间陈哥的组拿到了两个实习生名额，于是我就托陈哥帮我内推了一下简历。最后是在第四周星期一面试我的。虽然从一开始我就把这场面试的期待值降到了最低，但面试完后其实我还是十分在意结果的，因为万一没能拿到这份 offer，我真的会自我怀疑我是否走错了道路。

　　但其实——我在前一周（第三周）就预定了（第四周）星期二回重庆的机票！因为周末要回去参加重大 EF 社组织的「轻音二六」，算是冬日社团祭吧！活动组织者、EF 现社长，也是我的朋友，汐水，十一月时就问我到时候要不要回重庆来、要不要出 cos。由于那会我还没狠下心来辞职跑路，所以一直没有计划。直到这会已经决绝地辞掉了那个令我讨厌的工作，于是我就赶快在闲鱼收了毛，抓紧订了美瞳、约了妆娘，打算就在周末的活动上出我人生的第一次 cos。虽然我真的很担心到底能不能拿到这份 offer，但其实我更加期待周末我的第一次 cos 会是什么样子。

那时我心想：我眼下最希望三件事成真，一是收到得物的 offer，二是 cos 初体验希望能出得好看一点，三是身体永远健康。

　　到了轻音二六活动的那天，cos 出得比较顺利，玩的也很开心。而且，就在星期四的时候，我收到了确认 offer 的电话。这算是“双喜临门”吧？因此，在星期日幸福了一整天后，第二天我就从重庆又飞回了上海，在得物办了入职。

希望在 2026，当初的第三个愿望也能实现吧。我不想再回到医院了。

　　在这里放一张我最满意的场照吧，我真的好喜欢这张。不枉我来上海后严格控制饮食减肥的努力……

这里就要说明一下，我大一大二时有着顶级建模，入学时室友李见我第一面就跟我说 “你好好看！”。然而考研那半年给我考成了肥🐖，直到近几个月、来上海后通过刻意控制饮食才终于减了一些回去，虽然离当初的身材差得依然还多。

而我会在 2025 年末出 cos 这一点，可能主要是被江波害的。不过，我本就很愿意尝试一下未曾尝试的事物。

　　现在，我正在得物工作，主要内容是做 AI 中台的建设。虽然目前只入职了一周，但没有了在上家的那种让人窒息的压抑感。这是我的第一段互联网研发实习，我会认真对待的。更重要的是，在这里做的也不再是低级无趣的工作，能真切感受到成长，也不会再有被整个环境所轻视的感觉。

PJSK 证书抓包教程

Wed, 23 Jul 2025 06:03:18 +0000

25 / 10 / 4 更：本文不再更新

本文不再更新。

这篇文章将被保留并归档，但不会再进行任何更新。如果你看到这篇文章时本文仍对你有所帮助，那么我此刻选择将本文保留而不是删除，大概就是有意义的吧？

25 / 8 / 31 更：请先阅读！

国服安卓并非无解~

本文的模拟器抓包部分流程是基于新版本 MuMu 模拟器撰写的，但国服安卓（包括官服与 b 服）会检测 Windows 上的新版本 MuMu 模拟器，若坚持使用本文方法与最新版 MuMu 模拟器则需要通过逆向手段绕过。这非常麻烦，但我们可以避免这一问题。
国服安卓抓包最简单的方式是考虑老版本 MuMu 模拟器或一些小众模拟器，因为国服安卓的检测手段不会针对这些模拟器。例如，可以参考官服、B服安卓手机抓包教程，这篇文档提供了使用其他模拟器以简单但有效地绕过国服主流模拟器检测的解决方案。
本文的方案总体上是通用的，但可能会因为后续版本的模拟器检测、SSL Pinning 等问题需要进行一些额外的操作。对于国服安卓，我建议可以先阅读上文所给出的引用链接的文档。

安卓模拟器证书抓包

前言

考虑到台服、韩服不支持引继，加之不少实体安卓设备 root 困难（无论是否经过自定义证书，至少需要 root 才能解密 SSL 流量），因此台服、韩服的安卓设备用户抓包需要借助模拟器。在 root 的模拟器中可以使用证书解密流量，也可以考虑 eCapture（但依赖内核版本），本部分将一步一步介绍在模拟器上证书抓包的详细流程。

国服安卓版本存在针对主流模拟器特征检测和代理检测，其中
- 主流模拟器检测使得本方法的示例不直接适用于国服安卓版本，可以考虑逆向 hook 或更换其他模拟器，更换模拟器的方案即为文章官服、B服安卓手机抓包教程所介绍的方案；
- 代理检测可以考虑支持 MITM 的代理客户端绕过；
日服、国际服安卓用户可以考虑引继抓包，但也可以模拟器抓包；
对于苹果用户，建议使用模块抓包，更加自动化。

注：截止至 2025 年 7 月，主流安卓模拟器内核版本均低于 5.5，eCapture 在这些设备上无法正常工作。经研究，可能是在低于 5.5 版本的内核上 bpf_probe_read_user 无法读取用户态数据导致的，因此本文主要介绍证书抓包的方法。持有实体安卓设备的用户可以考虑 eCapture。

准备工作

软件：

Spring 框架学习研究札记

Wed, 28 May 2025 03:29:00 +0000

这篇文档仅仅是我自己的笔记。比如，我会整理 Spring 框架常见的容器相关注解，但不会对容器注解本身做进一步解释，也不会解释 IoC 的概念，只起目录与导航的作用——因为这些内容的详情要么在官方文档中可以很轻松地查到，要么十分基础。但对于 Bean 的生命周期这类比较重要的关键点，我将重点分析并记录。

Spring Boot 3.3.3

Spring Framework 6.1.6

JDK 17

Spring Core & AOP

IoC & DI

控制反转（Inversion of Control）是一种设计原则，指对象的创建、销毁与依赖关系不再由用户负责，而是将对象的生命周期交由容器统一管理。

依赖注入（Dependency Injection）是控制反转的最常见实现方式。

Spring Bean 接口与注解

@Configuration
@ComponentScan、@Import
@Bean
@Component
- @Controller（@RestController），@Service，@Repository
@Scope
@Lazy
接口 FactoryBean
@Conditional、接口 Conditional 及一系列派生注解
- @Profile
Spring Boot 如此强大，最主要的原因就是其在底层广泛而灵活地使用了 @Conditional。如果说最初基于 XML 配置的 Spring 设计哲学是配置优于代码，那么后来基于注解的 Spring 为我们大幅减少甚至几乎完全消灭了冗长繁琐的 XML 配置，而 Spring Boot 在这基础上更进一步，通过让约定优于配置，让一个刚入门的开发者也能够轻松上手。
@Autowired，@Resource

在源码中，@Autowired 实际上是由 AutowiredAnnotationBeanPostProcessor 实现的，这是一个专门用于处理 @Autowired 的一种特殊的 BeanPostProcessor，在每个 Bean 或组件被创建后调用其特殊的 postProcessProperties 方法或 postProcessBeforeInitialization 方法，通过反射分析目标 Bean 的全部注解、字段、方法、构造器等等，然后对具有 @Autowired 注解修饰的对象尝试在容器中进行匹配，如果匹配成功则注入依赖。

MLP 与 BP 算法的数学原理

Sun, 08 Dec 2024 06:10:23 +0000

关于自动微分机制的数学证明放在文末，首先给出自动微分的程序实现。因为是我笔算进行推导的，可能存在谬误。

Python version: 3.12.4
numpy version: 1.26.4
sklearn version: 1.3.0

计算图定义

计算图（computational graph）是一种被用于pytorch与tensorflow中进行自动微分以实现误差的反向传播、进而计算各参数梯度的技术，这使得我们可以方便地使用梯度更新神经网络的参数。其中，pytorch使用动态计算图设计，tensorflow使用静态计算图设计。

我们的实现中，计算图与自动微分系统被“嵌入”在了层的定义。pytorch在源码中定义了计算图基类，通过重载运算符等方法实现计算图的生成。

import numpy as np
from sklearn.datasets import make_moons


class Linear:
 def __init__(self, inputFeatures, outputFeatures, bias=True):
 self.weights = np.random.rand(inputFeatures, outputFeatures)
 self.bias = np.random.rand(outputFeatures)
 
 def __call__(self, x):
 self.input = x
 self.output = x @ self.weights
 if self.bias is not False:
 self.output += self.bias
 return self.output
 
 def paramenters(self):
 if self.bias is not False:
 return [self.output, self.bias]
 return [self.output]
 
 def backward(self, grad_output, learning_rate):
 grad_input = grad_output @ self.weights.T
 grad_weights = self.input.T @ grad_output
 grad_bias = np.sum(grad_output, axis=0) if self.bias is not None else None
 
 self.weights -= learning_rate * grad_weights
 if self.bias is not None:
 self.bias -= learning_rate * grad_bias

 return grad_input


class Sigmoid:
 def __call__(self, x):
 self.output = 1 / (1 + np.exp(-x))
 return self.output

 def backward(self, grad_output, learning_rate):
 grad_input = grad_output * self.output * (1 - self.output)
 return grad_input


class Softmax:
 def __call__(self, x):
 self.output = np.exp(x - np.max(x, axis=1, keepdims=True))
 self.output /= np.sum(self.output, axis=1, keepdims=True)
 return self.output

 # def backward(self, grad_output, learning_rate):
 # grad_input = grad_output.copy()
 # batch_size = grad_output.shape[0]

 # for i in range(batch_size):
 # y = self.output[i][:, None]
 # jacobian = np.diag(y) - np.outer(y, y)
 # grad_input[i] = jacobian @ grad_output[i]

 # return grad_input


class Sequential:
 def __init__(self, layers):
 self.layers = layers
 
 def __call__(self, x):
 for layer in self.layers:
 x = layer(x)
 self.output = x
 return self.output
 
 def predict_proba(self, x):
 logits = self(x)
 e_x = np.exp(logits - np.max(logits))
 return e_x / e_x.sum(axis=0, keepdims=True)
 
 def paramenters(self):
 return [p for layer in self.layers for p in layer.paramenters()]

基于计算图的MLP定义

class MLP:
 def __init__(self):
 self.model = Sequential([
 Linear(2, 4), Sigmoid(),
 Linear(4, 4), Sigmoid(),
 Linear(4, 2)
 ])
 self.softmax = Softmax()
 
 def __call__(self, x):
 return self.model(x)

 def forward(self, x):
 return self.model(x)

 def backwardAndGradientDescent(self, x, y, learning_rate):
 '''
 x: input darta vector, like [[0.5, -1.2], [0.7, 0.3], [-0.2, 0.8]]
 y: labels vector, like [0, 1, 0]
 '''
 batch_size = x.shape[0]
 logits = self.forward(x)

 grad_output = logits.copy()
 grad_output[range(batch_size), y] -= 1 # cross entropy gradient
 grad_output /= batch_size

 for layer in reversed(self.model.layers):
 grad_output = layer.backward(grad_output, learning_rate)
 
 def probability(self, x):
 '''
 x: input darta vector, like [[0.5, -1.2], [0.7, 0.3], [-0.2, 0.8]]
 return: probability vector, like [[0.88, 0.12], [0.45, 0.55], [0.31, 0.69]]
 '''
 batch_size = x.shape[0]
 logits = self.forward(x)
 return self.softmax(logits)

 def classify(self, x):
 return np.argmax(self.probability(x), axis=1)

训练过程

X, y = make_moons(n_samples=1000, noise=0.1)
batch_size= 50
max_steps = 50000
learning_rate = 0.05
mlp = MLP()
lossRecord = []

for step in range(max_steps):
 indices = np.arange(X.shape[0])
 np.random.shuffle(indices)
 X, y = X[indices], y[indices]

 for i in range(0, X.shape[0], batch_size):
 X_batch = X[i:i+batch_size]
 y_batch = y[i:i+batch_size]
 mlp.backwardAndGradientDescent(X_batch, y_batch, learning_rate)

 if step % 10000 == 0:
 output_batch = mlp.forward(X_batch)
 epsilon = 1e-12
 loss = -np.mean(np.log(output_batch[range(batch_size), y_batch] + epsilon))
 lossRecord.append(loss)
 print(f"Step {step}, Loss: {loss}")

打印：

考研感想

Mon, 25 Dec 2023 00:23:45 +0000

考后感想

走出考场、回到宿舍，对着手机发了一会呆，恍恍惚惚，若有所失。毕竟是为之努力了半年的目标，一时间不知道接下来做什么好。虽然，好像我并不怎么努力。

我觉得我不算一个勤奋努力的考生，用这个词用形容我显然是不合适的；身边一些朋友都觉得我很努力在准备，然而他们距离我毕竟还是太遥远了。哪个考研的人会在备考时玩手机刷视频到凌晨五六点呢？我也没有用功到卸载所有游戏、所有社交软件，甚至在考研的前几周买了一部东方ip的模拟经营游戏《东方夜雀食堂》，短短两天时间内足足玩了15小时——我平常学习两天下来的时间都没这么多。

再者，十月底时，我连着几天把EVA旧TV版26话全看完了，最后一晚甚至通宵看了好几集；十一月的时候我的iPhone日均屏幕时间是十一个小时，连我都觉得不可思议：我是怎么做到的？以上已经能说明我是以一个什么状态在复习了。

要说考研这段时间的收获，大概有三点。

一是大大巩固了本人的数理基础。借助考研复习的机会，把许多当初未求甚解的基础概念弄明白了，收获颇丰。

二是收获了二十多斤的肉。由于选择了回家全职备考，整个大四上学期只有考研的那两天待在学校。大概家里伙食太好了吧，怀念半年前清瘦的自己，我恨这臃肿的我。毕竟，从早上起床到晚上睡觉，我几乎都在电脑椅上坐着（要么研究题目，要么玩手机），几乎不出门，所以运动量基本为零，在相当多的日子我的微信步数都在200到1000间浮动；同时，家里又随处都是小零食，于是我就以肉眼可见的速度膨胀了。实际上不止我，上届回家备考的学姐和西财凯子在考研这段时间也都胖了不少，即便是凯子这样曾天天去健身房打卡的，又何况于我呢。所以，如果学弟学妹有计划考研，一定要管住自己的嘴，并且每天保持一定的运动量。

三是在开考的前几天悟到了，无论是这半年来漫长的准备，还是考试的那三小时，时间都是公平的。每一分钟，都是同样地流逝着；因此，我们不能只强调于关键的几小时，在平常的时日里，也要多多做一做自己想做的事、见一见想见的人。总有一天会走进考场的，也总有一天会离开考场，我眼睁睁看着苍盾小程序上的倒计时从两百多天，到一百多天，到三十几天，最后到个位数。时间只会向前走，无论是痛苦的还是快乐的，都很快就会成为历史，不必过度悲伤或是留恋。

考研这半年诞生了许多想法，将他们一一列下排成了一幅待做清单，也不知道明天的我会不会付诸行动。比如，我确实很想学会画漫画，但最后或许多半也会因为嫌麻烦而放弃吧。这个清单列举的也许不是待办事项，可能只是备考时的一种愿想。毕竟，虽然考研的半年里我的手机就没怎么离开过手，但直到考研结束的时候，才体会到不用因玩手机而感到负罪是怎样的体验。

复习时间线

个人经历，仅供参考。这里略去细节，只写大体上的准备历程。

在开始以前，不得不说，纵然学院安排的全部课程对找工作均没有丝毫帮助，但前系主任彭老师对我们课业的安排还是蛮合理的。大三下我们只有一半的时间在实习（甚至是线上的），按计划，在大三下学期结束时全部种类学分就已然达到了毕业标准，而整个大四更是没有任何必修课程，这使得我们可以自由安排考研、考公，或是实习、准备招聘。对比之下，重邮软件的老刘不仅大三大四全程有课，甚至在考研的前一天还有随堂考试……

数学

由于我算半个数学系出身，有一定的数学基础（虽然很烂），所以没有进行所谓的一轮复习，也就是听课并做配套题集。事实上我根本没有按照轮次来复习，颇有随心随意的做派。

数学是我除了背单词外唯一长期坚持学习的内容。大概从五六月起吧，我买了一套《辅导讲义》，包括高等数学和线性代数两本，当天有心复习数学的话就做上几页十几页，但总是断断续续，今天和学弟去图书馆、自习室坐上一晚，明天又一整天没有半点进度，也就是三天打鱼两天晒网的状态。这段时间要集中线上实习，每天都需要去计信大楼十四层的机房打卡。个人感觉这套书还是很不错的，严格按照考点排列，而且每道题目都有详细的过程讲解，非常适合用于补全基础、总览知识架构。

七月份回了家以后，就开始做“660”了（全称《数学基础过关660题》）。每天做个一星半点，这时我的数学基础还不够全面和牢固，只是形成了基本的知识体系，后来又做了“严选题”，“严选题”是比较难的，做起来有点吃力。这段时间我在数学上还是十分懒散的，经常连着好几天也没有动笔。

除了“660”外，适合前期复习的题集还有“880”、“1000”和“1600”等等，这些我就都没写过了，不过大概我算开始得较晚的一个吧，凯子从去年十二月左右就开始做数学了，他几乎把这些题集全部做过。有时间的话，数学还是尽早开始，前期复习时多做几本练习题，巩固数学基础。

到了九月份，我就开始做真题了，基本上坚持了每天一套，再如何没动力、再如何无心学习，我也会先写一套数学。从1987年的真题到2023年近四十年的真题，我通通做了一遍。现在来看，做2000年以后甚至2008年以后的真题即可，不过在时间充裕的情况下都做也没有关系。

这期间我用凯子的账号选了部分“张宇十八讲”的课来听，感觉讲得挺棒的，不过似乎这些课程本应该在上半年时听吧。如果基础不稳，建议听课，不要一上来就试图靠做题来查漏补缺，这样效率太低。

十月中旬时，结束了真题的部分，我开始了做近四年的合工大超越系列合集。“合工大超越系列”难度相对其他模拟题是要大一些的，也是一天一套。最后剩了一年的几套没写，这时2024年的模拟卷陆陆续续出来了，我就开始做2024的模拟卷了。还是一天一套，我做过的模拟卷有：李永乐6套，余丙森5套，张宇8套，李林6套，合工大超越5+5套，李永乐3套，李林4套，张宇4套。做完了这些，也就到上考场的时候了。

我的数学复习顺序可能参考价值不大，建议按部就班进行。数学上我有黄哥助阵，就没有他不懂的考研数学题，两秒就能解决我两天的困惑，大概这就是保研中科院、数学类数竞重庆第一人的实力吧。如果没有这样高手相助，可以找几个研友组一个学习小队，互相解惑答疑。在帮助别人解决问题的过程中，也替自己做了查漏补缺。

数学，我虽然做得不多，但也肯定不算少了。即便如此，我到了考试的前几天还在查漏补缺、还有的方法技巧是我闻所未闻的，数学确实是需要重视的一个学科，占比分值巨大且难度较高。此外，通常而言在进行了一二轮复习后做真题会感觉较为顺畅，这并不意味着你已经完全掌握考研数学了，只是因为今年老师们给出的复习课程和题册必然是涵盖过去真题的所有考点和出题方式的，甚至你早就在不同的练习题集中间间断断做了相当一部分真题题目。当年的真题一定是较为创新的，所以“压力训练”是有必要的，即模拟考场环境，禁止翻书翻笔记，定时做模拟卷。今年的模拟卷难度排序，我认为是：

李艳芳 > 合工大超越 ≈ 张宇4套 > 余丙森5套 > 李林4套

考虑到考场上的紧张和真题的创新性，真题的难度大概在合工大超越的层级，甚至介于李艳芳与合工大超越，至少从今年看是这样的，部分年份真题会比较简单。

英语

我大概自七月底、八月初起开始每天坚持背单词，这是我除了每天一套数学以外唯一一直坚持着的事。现在看开始得太晚了，凯子也是去年十二月就开始背了，英语毕竟是基于词汇积累的。英语可以早一点开始背单词，并不需要额外买什么题册，日积月累下来，总能取得不错的成绩。我所使用的英语app有“不背单词”和“朗文当代高级英语词典”，以下是这半年来前者的数据统计：

1. 七月学习190词，复习193词

2. 八月学习1368词，复习3105词

3. 九月学习2052词，复习6899词

4. 十月学习1976词，复习10309词

5. 十一月学习116词，复习5655词

6. 十二月学习5词，复习2953词

英语我只做过英语一、英语二历年真题，其中英语二的阅读题全部写过一遍，英语一写了部分年份的阅读题。

我从十一月才开始准备作文，直到考试前夕都不敢保证写作时足够流畅、不会卡壳，时间上也算晚的了，毕竟到后面肖4出版后需要花时间背政治大题，不可能再有很多时间留给英语。这里推荐章晋林老师的网课，他的大作文模板挺适合我这样并不擅长英语写作的人。

英语的学习，最重要的、也是唯一重要的就是词汇量。高中物理老师曾说，“物理可以不学、单词不能不背”，是有一定道理的，单词与阅读能力远比任何技巧重要。我从未研究过考研英语阅读题有几种考法、有几种题型，如果读不懂问题，任何技巧都是苍白无力的；如果能彻底读懂文章，无论题干问什么问题都不在话下。至于作文——小作文多多积累句子、大作文背背模板即可，再加以练习，起码能拿到中等分数。

我的四六级都是近乎裸考的，其中六级在考前试着背了几百个所谓核心词汇，最后四级550分左右，六级437分，其中听力101分、阅读215分、作文121分。读者可以参考我的英语水平，判断自己从几月份开始坚持背单词合适，但当然是越早越好。

政治

从八月底开始边看徐涛的强化班网课边做肖1000，肖1000只做了一遍，后来没太重视政治。

等到十一月底的时候，随着肖8出世，各个老师的模拟题也都渐渐出版了。不少小程序、app，比如苍盾政治，都提供有市面上大部分有名气有声望的考研政治老师出的模拟卷，只需要几块钱就能全部买下，随时随地打开手机就能练手。这些小程序与app都配套有评论区，评论区里有不少记忆的好点子，比如一些口诀，也能看看大家是如何思考的。

再后来，肖4就发货了。几乎所有政治分析题的所谓整理与带背均出自肖4，虽然肖4在12月中旬前后就已出版，这时就应该把大部分精力转移到政治大题的背诵上了，但我直到考政治的前一天晚上还在拼命记肖4的分析题答案。我实在不喜欢背这些东西。

整体而言，政治不需要太早准备，毕竟这是唯一一门随时在变化、具有极强时效性的科目。政治分析题等肖4出版再开始背诵就好，而选择题我是靠各个老师的模拟题进行“题海战术”学习的——其实就是太懒，不愿去背知识点。厚厚一本、大几百页的背诵手册像砖块一样，我真的不喜欢这样硬背。似乎学校图书馆与教学楼楼道里每天都有不少拿着背诵手册边念叨着记忆的同学，我做不到这样，但如果有条件、有能力，还是尽量多翻一翻、记一记的。我模拟卷选择题只能考三十几分的话，背得很牢的同学一般能考到四十多。靠多刷模拟题来补强也不是不可以的，但做起来全是陌生考点最后得到一个低分，挺挫伤人的。

专业课

我的专业课比较简单，起码是于我而言。九月十月时找了个网络机构花了千把块报了个定向班，感觉还算挺值，因为确实提供了不少网上找不到的信息和资料，最主要是知道了真题的考试风格，学长的一些帮助也十分必要。

可直接参考贾俊平《统计学》简答题考点全整理.pdf，这是我三个月来对简答题考点的整理笔记。

考试时有什么要注意的吗？

准备一瓶褪黑素，考前晚上十一点半还没睡着就嗑一粒，对于长期准备的考试，考前睡好觉远比考试前几天熬夜突击复习更有效。
每天考后、晚上和早上，如果感觉肠胃不适，务必去厕所解决，不要影响后来的考试。
考前饮食不需要过分清淡，但切忌刺激性事物。我在考试的前一晚还买了个两块的蜜雪冰城甜筒雪糕吃，当晚就拉肚子了，还好第二天就恢复了。
考后对答案没关系，我在考完英语的一小时后、答案一经机构公布就火速核对了阅读的答案，但千万不要因为对答案而影响了后续考试的心态，如果做不到，还是不要对了为好。

后记

2024 年 2 月 26 日上午 9:00：查到初试分数了，412，结果还算不错。政治、英语、数学和专业课分别为75、81、118和138。

2024的初试体验，总的来说是：

矩阵基础

Mon, 10 Jul 2023 13:17:56 +0000

本文主要是一些关于矩阵的相对初等的内容，是考研期间做的完整考研线性代数归纳总结，目的是方便查阅。现在来看，这篇文章的主要任务是收纳若干关于矩阵的初级线性代数知识与技巧，对于线性空间、线性变换等内容，暂不涉及。在作者看来，这一部分的知识里理论的成分居多，读者如有需求，还是直接参考专业的线性代数或高等代数教材为好。

作者本科专业是数学与应用数学，后在学院内转去了统计学 (数理方向)，有一定的数学基础，所以最基本的概念等本文就不再赘述了😊例如矩阵转置及其性质、矩阵逆的定义等等。

本文集作者所学同时参考了大量的文献和网络资料，在整理和归纳时难免有所纰漏，如果发现有错误的内容可以邮件联系我以订正。

本文中凡是没有特别指明的，都限制在实数域上讨论。如果需要在线做一些矩阵运算，个人推荐 WolframApha；如果需要做一系列复杂矩阵运算，个人推荐 Mathematica。

矩阵

(数字) 矩阵只是一个数表，作者看来没有所谓本质：他只是一张表，我们要往里面装什么东西，比如实数、复数、矩阵甚至随机变量，或是定义某种“奇形怪状”的新运算，都是可行的——“矩阵是什么”这个问题，取决于“我们希望用矩阵做什么”；如果一定要问出个“本质”来，那可能是线性变换吧；尽管矩阵也可以代表一个线性方程组（的系数），(数字) 矩阵的某些性质从该角度看更为直观。如果把矩阵看成向量组，那么一些向量组问题的答案瞬间便水落石出。矩阵还有许多其他作用，在不同的场景下有不同的任务，这里就不一一列举了。

众所周知，左乘初等矩阵等于做相应的行变换，右乘初等矩阵等于做相应的列变换，那么什么时候只能做行变换，什么时候只能做列变换呢？

一般而言：

当把矩阵视为列向量的排列后，如果要直接确定线性相关的列向量之间的数量关系（例如已知某向量可以同时被两组向量线性表出，求该向量的值），则只能做初等列变换，因为只有列变换才是列向量间而不是其分量间的线性组合，保持了列向量的代数结构（但是可能会改变线性相关式$\sum k_i\alpha_i=0$的系数$\{k_i\}$）；
当把矩阵视为列向量的排列后，如果要确定列向量的极大线性无关组（也可以是判断线性相关性），则只能做初等行变换，因为就线性相关性而言，矩阵的行秩等于列秩，但如果做初等列变换就会改变列向量的位置，从而无法确定本来的列向量组中到底谁和谁线性相关；
当把矩阵视为线性方程的系数表时，如果要通过高斯消元法解方程，则只能做初等行变换，因为线性方程整体相加减不改变解的值，但如果做列变换则相当于把一个未知数的系数加到了另一个未知数上，破坏了线性方程的结构；

到底该行变换还是列变换，只是取决于目的是什么。例如第一个例子“已知某向量可以同时被两组向量线性表出，求该向量的值”，既可以将两个向量组视为列向量的排列而做初等列变换，也可以等价地认为两组向量依次列成的矩阵$A$与那个可以被同时表出的向量$b$构成的方程组$Ax=b$有解，从而利用高斯消元法对$A$做初等行变换。

矩阵等价

矩阵等价：如果矩阵$A$可以经有限次初等变换得到$B$，则$A\cong B$（矩阵等价）

上述条件等价于存在一系列初等矩阵$P_1,P_2,\cdots,P_n,Q_1,Q_2,\cdots,Q_m$，使得$A=P_1P_2\cdots P_nBQ_1Q_2\cdots Q_m$

注：矩阵乘法按“左行右列”规则计算，表现为做乘时是用左边的行向量点乘右边的列向量得到新矩阵的一个元素，也表现为左乘初等矩阵则对原矩阵做相应行变换、右乘初等矩阵则对原矩阵做相应列变换
同型矩阵等价的充要条件是秩相等（判断方法，矩阵等价的充要条件）

联系到定义：初等矩阵总是满秩而可逆的
若矩阵可逆则一定与$E$等价，从特征值角度看是特征值均非零，因此行列式不为$0$，故矩阵可逆；从初等矩阵角度看，他可以被视作为有限个代表初等行列变换的初等矩阵的复合（矩阵乘法），即可以由$E$经过有限次初等变换得到；也可以说该矩阵的对角矩阵一定为$E$
如果实矩阵$A$与$B$等价，那么$A^2$与$B^2$不一定等价，除非$A,B$中有一个矩阵为可逆矩阵

如果实矩阵$A$与$B$等价，那么$AB$与$AB$也不一定等价，除非$A,B$中有一个矩阵为可逆矩阵

如果实对称阵$A$与$B$合同，那么$A^2$与$B^2$合同

如果实对称阵$A$与$B$相似，那么$A^2$与$B^2$相似

之所以对两个等价的矩阵$A,B$不一定有$A^2$与$B^2$等价，是因为尽管$A^2$与$B^2$的特征值相等，但二者的秩却不一定相等。进一步讲，更本质的原因是二者零特征值的几何重数不一定相等。也就是说，即使$A,B$相似，从而$A,B$的零特征值有相同的代数重数与几何重数，则只能得出$A^2$与$B^2$的零特征值有相同的代数重数，但其几何重数可能是不相等的。对于命题“$AB$与$AB$也不一定等价”，原因同理；

最经典的例子是：
$$ \left\{\begin{aligned}&A=\left(\begin{matrix}1&1&\cdots&1\\0&0&\cdots&0\\\vdots&\vdots&&\vdots\\0&0&\cdots&0\end{matrix}\right)_{n\times n}&&B=\left(\begin{matrix}1&1&\cdots&1\\-1&-1&\cdots&-1\\\vdots&\vdots&&\vdots\\0&0&\cdots&0\end{matrix}\right)_{n\times n}\\&A^2=A&&B^2=O\\&BA=A&&AB=O\end{aligned}\right. $$
其中
$$ r(A)=r(B)=1 $$$$ r(A^2)=1,\ \ \ \ r(B^2)=0 $$$$ r(BA)=1,\ \ \ \ r(AB)=0 $$
这个例子十分经典，务必了解

矩阵合同

矩阵合同：合同一定等价
矩阵合同：若存在可逆阵$C$，使得$C^TAC=B$，则$A\simeq B$（矩阵合同）

其中$C^TAC$称为$A$的合同变换，实对称矩阵经合同变换还是实对称矩阵

合同变换不要求$A,B$都是对称阵，但对称阵经合同变换只能是对称阵，非对称阵经合同变换只能是非对称阵
对称矩阵合同：对称矩阵若相似则一定合同
对称矩阵合同的充要条件：正负惯性指数相等；规范型相同
实对称矩阵$A$与他的逆$A^{-1}$合同，即二者具有相同的规范型，这是因为$A=AA^{-1}A=A^TA^{-1}A$
合同变换不改变正负惯性指数
等价关系：矩阵等价、相似与合同都是广义上的
等价关系（所以也有人认为矩阵等价应该译作相抵，以免与逻辑关系上的等价冲突），均满足自反性、对称性与传递性
相似必然合同，但合同不一定相似
在欧氏空间中，合同变换体现为在平面到自身的一一变换下，任意线段的长和它的像的长总相等

考研数学（微积分）（下）

Tue, 16 May 2023 13:17:56 +0000

part Ⅱ主要内容为 不等式、常微分方程 (ODE)、级数理论 和 多元函数微积分，包括工具定理、计算方法与部分证明，以例题辅助解释。

常用常数

任何正数的任意根次之值$\sqrt[k]{a}=x_0\Leftrightarrow f(x_0)=x^k_0-a=0$都可以用牛顿-辛普森优化算法计算：$x_{n+1}=x_n-\frac{f(x_n)}{f'(x_n)}=\frac1k\left((k-1)x_n+\frac a{x^{k-1}_n}\right)$，特别的对于二次根式$\sqrt{a}=x$有$x_{n+1}=\frac12\left(x_n+\frac a{x_n}\right)$；非多项式函数不方便笔算，也可以类似地考虑切线法、不动点法等其他优化算法计算其数值解（要是有计算机，利用已有的库现写一个BFGS算法也不是难事）。不过简便起见，本文提供一些常见的常数以供查阅，略去计算的步骤。

$\pi\approx3.141593$；

展开/收起 π 的一些极限/级数式

$$ \pi=\lim\limits_{\,n\to\infty}n\sin\frac{180\degree}{n} $$$$ \pi=\lim\limits_{n\to\infty}2^n\underbrace{\sqrt{2-\sqrt{2+\sqrt{2+\sqrt{2+\cdots+\sqrt2}}}}}_{n-1\text{ squre roots}} $$

$e=\lim\limits_{n\to\infty}\left(1+\frac1n\right)^n\approx2.718282$；
$\gamma=\lim\limits_{n\to\infty}\left(\sum\limits^n_{k=1}\frac1k-\ln n\right)=\lim\limits_{n\to\infty}\left(\displaystyle{\int^1_0\frac{1-x^n}{1-x}\mathrm{d}x-\ln n}\right)\approx0.577216$；
$\pi^2\approx8.824978$；
$e^2=7.389056$；
$\sqrt2\approx1.414214$；
$\sqrt{e}=1.648721$；
$\sqrt3\approx1.732051$；
$\sqrt{\pi}=\displaystyle{\int_{\mathbb{R}}e^{-x^2}\mathrm{d}x=2\,\Gamma\big(\frac12\big)\approx1.772454}$；
$\sqrt5\approx2.236068$；
$\sqrt7\approx2.645751$；
$\sqrt{11}\approx3.316625$；
$\sqrt{13}\approx3.605551$；
$\ln2\approx0.693147$；
$\ln3\approx1.098612$；
$\ln5\approx1.609438$；
$\ln7\approx1.945910$；

不等式综述

不等式在分析学中是极其重要的，某种意义上，数学分析和实分析是玩弄不等式的艺术。

多元不等式

多元不等式更“普适”、更“普通”，例如柯西不等式和$x>0$时$\sin x\lt x$的区别。

排序不等式

$$ \text{倒序和 }\leqslant\text{ 乱序和 }\leqslant\text{ 顺序和} $$

设长度为$n$的有限数列$\{a_i\}$与$\{b_i\}$单调递增，即$a_1\leqslant a_2\leqslant\cdots\leqslant a_n$、$b_1\leqslant b_2\leqslant\cdots\leqslant b_n$，则

$$ \sum^n_{i=1}a_ib_{n-i+1}\leqslant\sum^n_{i=1}a_ib_{k_i}\leqslant\sum^n_{i=1}a_ib_i $$

其中$\{b_{k_i}\}$是$\{b_i\}$中元素的任意乱序排列。

排序不等式的证明（配合Abel变换）

切比雪夫的和不等式

切比雪夫不等式的离散形式是排序不等式的推广。

The James-Stein Estimator

Wed, 26 Apr 2023 16:15:23 +0000

本人没有能力开拓什么，只能综合前辈们的观点尽量感悟；没有打算、更没有能力深入研究收缩估计，不过是对Stein’s paradox的奇怪现象感到诧异，来了兴趣，所以查阅多手资料后写下了本文。

本文主要参考文献
把他们列在文首，只因为我看来这些文章比本文更有价值，推荐参考

Estimation with Quadratic Loss

ESTIMATION WITH QUADRATIC LOSS - Yale University

1961年Willard James与Charles Stein的文章，在这里James-Stein估计被首次提出，点击此处下载论文。

大规模推断讨论班：经验贝叶斯与 James-Stein 估计量 - GitHub

这篇文章非常系统地从经验Bayes观点引出了Stein理论与Robbins理论，读完后收获颇丰，本文也有所参考。也说明了，所谓“频率学派”、“贝叶斯学派”的对立，“贝叶斯世界观”等描述并不准确，频率方法和Bayes方法不是水火不容的，统计学发展到今天，他们本身的界限就比较模糊。

赵世舜. 矩阵加权估计及James-Stein估计的再研究 [D]. 吉林：吉林大学，2006.

感谢这篇博士论文为我提供的帮助，第二章定理证明的思路是源自于这份文献的；好像在2017年赵已经在吉林大学数学学院升任教授职务了。

~~本文不是正经的论文，懒得划出具体的引用😊~~以上文献本身亦引用了较多文献，如果有兴趣，不妨也读一读。

本文用到了一些缩写：MLE指极大似然估计，UMVUE指一致最小方差无偏估计，MSE指均方误差，G-M定理指高斯-马尔可夫定理。

the James-Stein Estimator

众所周知，$p$元正态分布总体$N_p(\boldsymbol{\mu},\sigma^2\boldsymbol{I}_p)$数学期望的MLE是样本均值，即$\hat{\boldsymbol{\mu}}^{(MLE)}=\bar{\boldsymbol{X}}=\sum\limits^n_{i=1}\frac{\boldsymbol{X}_i}{n}$，是一个十分符合直觉且自然的统计量，由于他的简单直接，通常多数人也会采取他为总体期望的估计。事实上，由于正态分布族系指数族，并且$\bar{\boldsymbol{X}}$是$\boldsymbol{\mu}$是充分完备统计量，故根据Lehmann–Scheffé定理，样本均值是总体期望的UMVUE——这意味着，在无偏估计中样本均值的方差是最小的，可见样本均值是一个性质优良的估计。进一步地，$\mathrm{Var}(\bar{\boldsymbol{X}})$达到了Cramer-Rao下界。

但是，这并不意味着样本均值在任何意义下都是最“好”的！1961年由Willard James和Charles Stein基于1956年Charles Stein提出的早期版本所改进得到的James-Stein estimator（下简称JSE）就是这样一个例子，当用$\mathrm{SE}$表示的样本均值的标准误时，有

$$ \hat{\boldsymbol{\mu}}^{(JSE)}=\left(1-\frac{(p-2)\cdot\mathrm{SE}}{\bar{\boldsymbol{X}}^T\bar{\boldsymbol{X}}}\right)\cdot\bar{\boldsymbol{X}}\tag{1} $$

$(1)$式可视为样本量$n=1$的推广，如果只有一个样本，则$(1)$退化为

$$ \hat{\boldsymbol{\mu}}^{(JSE)}_{n=1}=\left(1-\frac{(p-2)\cdot\sigma^2}{\Vert \boldsymbol{X}\Vert^2}\right)\cdot\boldsymbol{X}\tag{2} $$

相较于样本均值，JSE的方差显著减小了；尽管失去了无偏性，但渐进无偏，最重要的是在$p\geqslant3$情况下其MSE严格小于样本均值，这时JSE严格一致优于样本均值，这一现象也被称为Stein’s paradox。~~当p=2时显然JSE等价于样本均值。~~

这个结论第一眼看起来真的出人意料！这似乎违背经验，毕竟在我们的印象中，寻找、构造UMVUE一直都是统计学家的“毕生追求”，然而JSE的出现却表明，在非无偏估计家族中、在某些情况下，我们或许有比UMVUE更好的选择（这具体取决于我们在特定情境下如何定义“损失”标准）。

这也深刻地说明了，UMVUE其实并没有设想的那般“绝对的好”，当我们把眼光放宽到无偏估计，可能还有更“好”的估计在等着我们发掘。JSE就揭示了，**当维数大于2，样本均值作为UMVUE就未必还是最好的估计！**换句话说，在低维可容许的样本均值，在高维是不可容许的，这侧面印证了低维直觉放在高维中很可能是错误的，高维统计中还有很多这样的例子。

Tip: 由于正态分布的样本均值仍服从正态分布，为简便起见，后文中如若未做特别说明，则只考虑$n=1$的情况，不再区分$\bar{\boldsymbol{X}}$与$\boldsymbol{X}$。

James-Stein型估计的风险

这里将按照赵世舜在其博士学位论文中所给出的，仿照1981年Stein、1990年Brandwein与Strawderman给出的较为简单的证明，证明当$02$且$b\geqslant0$时，James-Stein型估计$\left(1-\frac{a\sigma^2}{b+\boldsymbol{X}^T\boldsymbol{X}}\right)\boldsymbol{X}$的风险一致小于$\boldsymbol{X}$的；并且，当$a=p-2$时，估计的风险达到最小，若进一步$b=0$，这时估计正是JSE，即$\hat{\delta}_{p-2,0}=\hat{\boldsymbol{\mu}}^{(JSE)}$。

~~看过1961年Willard James与Charles Stein的论文原文，这部分没有看懂，所以不按那最古老的方法证明风险一致地小了。~~

引理 1 (成平等，1985) 当$X\sim N(\mu,\sigma^2)$，$h(x)$可微且$\lim\limits_{x\to\infty}\frac{h(x)}{e^{\frac12(x-\mu)^2}}$，有

$$ \mathbb{E}\big[(h(X)(X-\mu)\big]=\mathrm{Cov}\big(X,h(Y)\big)=\sigma^2\mathbb{E}\big[h'(X)\big]\tag{3} $$

在后文的证明中只会用到$\sigma^2=1$的情形。

定理 1 以二次损失定义风险，设$\boldsymbol{X}\sim N_p(\boldsymbol{\mu},\sigma^2\boldsymbol{I}_p)$，则当$0

考研数学（微积分）（上）

Thu, 06 Apr 2023 18:23:33 +0000

想了想，还是写Markdown更容易保存；作为考研高数的完整笔记，内容多了以后电子文档增删查改起来容易些。

part Ⅰ主要内容为极限与 一元微积分，涉及较多方面。

只要数学家名称与定理名称较为常见、有广为接受的中文翻译，就都用中文表示了；两篇文章都主要限定在$\mathbb{R}$上讨论，后文不再强调了。移动端阅读体验可能比较糟糕，尤其是用手机浏览长公式时。

如有纰漏，可以邮件联系我以订正。为了不影响主干内容的连贯，部分例题被折叠了起来。

注意

可证明，对$f(x)^{g(x)}$形式的式子，是可以直接对$f(x)$与$g(x)$运用泰勒公式的（只要运用正确，精度足够），自然对所谓的“等价无穷小”也是成立的，这在求极限中非常实用、方便；
第一、第二数学归纳法是极其好用的工具，需要熟练掌握并学会灵活运用（实为严格的演绎法）。归纳法不仅能运用在定理证明中，甚至可以配合单调有界定理证明数列极限的存在性。

例如设$1\lt a\leqslant e^{\frac1e}$，$x_1=a$，且当$n>1$时有$x_n=a^{x_{n-1}}$，试证极限$\lim\limits_{n\to\infty}x_n$存在。

观察到$x_2=a^{x_1}=a^a>a=x_1$，于是猜想$\{x_n\}$可能单调递增；做归纳假设$x_n>x_{n-1}$成立，则有$x_{n+1}=a^{x_n}>a^{x_{n-1}}=x_n$，因此由第一归纳法，数列$\{x_n\}$确为单调递增。下证数列有界，首先有$x_1=a\leqslant e^{\frac1e}\lt e$，再次运用归纳法，假设$\forall n\lt k,\ x_n\lt e$，则$x_{n+1}=a^{x_n}\lt a^e\leqslant e$，同时容易知道$\forall n,\ x_n>1$，因此数列有界；最后，根据单调有界定理可知，该数列极限存在。
在点$x_0$处使用泰勒公式的条件：$f(x)$在含点$x_0$的某个开区间$(a,b)$内有$n+1$阶导数，则$f(x)$可以按$(x-x_0)$展开到$n$阶；
求极限$\lim\limits_{x\to a}\frac{f(x)}{g(x)}$时使用洛必达法则的条件：除了要求分子分母满足不定式条件，$f(x)$与$g(x)$的导数在$a$的某个邻域内应均存在，且导数比值的极限为一广义常数$A$时，才有$\lim\limits_{x\to a}\frac{f(x)}{g(x)}=\lim\limits_{x\to a}\frac{f'(x)}{g'(x)}=A$成立；其中$A$可以是无穷大。
不要混淆了记号。$\lim\limits_{x\to {x_0}^+}f(x)$与$f(x_0+0)$均为右极限的记号，定义为：$\forall \varepsilon>0$，$\exists\delta>0$，$s.t.\,\,$当$0\lt x-x_0<\delta$时，有$|f(x)-A|<\varepsilon$，则称$A$为$f(x)$在点$x_0$处的右极限。从实数轴上看，右极限是“从数轴的右侧逼近”、“从数轴的正侧逼近”的单侧极限，与之对应的是左极限。

但是一般而言，导数的右极限$\lim\limits_{x\to {x_0}^+}f(x)$存在不等价于右导数$f'_+(x)$存在！！！导数的左极限与左导数的关系同理。
数学辅助工具上，个人十分推荐 Mathematica：无论是优化问题、矩阵求逆等数值计算，还是不定积分、微分方程、泰勒 / 洛朗级数等符号计算，Mathematica都能处理自如；此外，微软用Python语言开发的 Z3 也是一个强大的工具。Wolfram|Alpha 是基于Mathematica的，提供了图形化的在线网页界面，可以十分方便地进行常见的运算，让初学者不需要任何代码也可以借助计算机完成一些数学计算。

对于函数图像，可以通过 Desmos 简单绘制，Desmos同样提供了在线网站，可以便捷得画出简单或复杂函数的图像。如果对一些简单函数如$\arccos x$的图像不熟悉，可以通过Desmos直接画出其图像；对一些相对复杂的函数Desmos也能胜任，甚至还能从中看出函数在间断点的极限。

初等数学简记

二项式定理：$\forall n\in\mathbb{N}^+$，$(a+b)^n=\sum\limits^n_{k=0}\binom{n}{k}a^{n-k}b^k$；
$n$次方的差公式：$\forall n\in\mathbb{N}^+$，$a^n-b^n=(a-b)\sum\limits^{n-1}_{k=1}a^{n-k}b^k$
- 特别地，平方差公式的一个有趣应用是对根式差极限的处理：$\sqrt{f(x)}-g(x)=\frac{f(x)-g^2(x)}{\sqrt{f(x)}+g(x)}$；
- 当$b=1$时，有：$(x-1)^n=(x-1)(x^{n-1}+x^{n-2}+\cdots+x+1)$
令上式$b:=-b$则得到$n$次方和公式，注意当$n$为正偶数时$a^n+b^n=0$没有实数根，自然也不能在$\mathbb{R}$内分解因式。当$n$为奇数时，有：$a^n+b^n=(a+b)(a^{n-1}-a^{n-2}b+\cdots-ab^{n-2}+b^{n-1})$；
- 特别地，当$b=1$且$n$为奇数时，有：$(x+1)^n=(x+1)(x^{n-1}-x^{n-2}+\cdots+a^2-a+1)$；
中学数列通项求法大全：高中数学：求数列通项公式的十一种方法（方法全，例子全，归纳细）
一般$2$元$2$次方程解法：对于一般的$2$元$2$次方程组，可以将其改写为二次型的形式，
$$ \left\{\begin{aligned} &\ \ \ \ (x,y,1)\boldsymbol{A}\left(\begin{array}{c}x\\y\\1\end{array}\right)=0\\ &\ \ \ \ (x,y,1)\boldsymbol{B}\left(\begin{array}{c}x\\y\\1\end{array}\right)=0 \end{aligned}\right. $$
其中$\boldsymbol{A},\boldsymbol{B}$是三阶实对称矩阵，

回归分析

Sun, 08 Jan 2023 18:11:25 +0000

方便起见，本文用$\Vert\cdot\Vert^2$代表$\Vert\cdot\Vert_2^2$，其中$\Vert\cdot\Vert_2$是$l^2$或$L^2$范数，用RSS或SSE表示残差平方和，用SSR表示回归平方和，用SST表示总平方和，用OLS表示最小二乘法，用MLE表示极大似然估计，并采用下分位数的记号。

本文最初是作为本科阶段期末考试的复习总结，★代表考试中重要程度，●代表不会刻意作为考点，◆代表只考察解读或名词解释，不考察理论推导与证明，最后▲代表虽然是复习课上明确提到的必考内容，但会做变形或考察类似题目。由于本文作于作者大三时期，且原先的目的也只是系统地总结回归分析考试考点，所以本文不会十分深入地探究太多涉及底层理论的内容；文章侧重点更多的还是线性回归本身的理论，所以一些应用中的处理方法和可能遇到的问题并没有太多诠释。

不过，后来断断续续扩写补充了相当一部分本科课程以外的内容，如果读者仅仅希望将本文作为（西南大学统计系）期末考试的复习笔记，则没有任何记号标记的标题下的内容，均可以忽略。

参考书目有：

学院的本科授课教材，即王松桂等人所编著的《线性统计模型：线性回归与方差分析》
同时也参考了茆诗松等编著的《概率论与数理统计教程 (第三版)》与贾俊平等编著的《统计学 (第8版)》
若干网络资源与Wiki百科

在此感谢我的回归分析任课教师徐文昕老师。

前言

最小二乘法有着极为广泛的运用，他的优良性质由高斯-马尔可夫定理所保证；除此之外，如果残差还独立同分布于正态分布，则此时OLS等价于MLE。即便残差并不服从正态分布，只要满足高斯-马尔可夫定理的基本条件，那么OLS就是最优的无偏估计，这说明了线性回归的强大之处。

然而在许多情形下，相对于一些其他的方法（尤其是非参数方法），OLS在稳健性方面略显疲态。考虑到最小二乘法的损失函数为RSS，一旦样本数据中出现了严重偏离总体的异常点，误差将会在被平方后大幅增加。这种情况下，如果依然希望最小化RSS，可能导致OLS的值因此而发生较大的变化，使得回归曲线偏向于异常点，换句话说：OLS是对异常值十分敏感。

让我们把目光转向最小一乘法。最小二乘法的损失函数为$\text{RSS}=\Vert y-\hat{y}\Vert^2_2$，而最小一乘法的损失函数为$\Vert y-\hat{y}\Vert_1=\sum\limits^n_{i=1}\vert y_i-\hat{y}_i\vert$，从损失函数的形式上看，如果出现异常值，显然RSS产生的惩罚更严重，而最小一乘法的惩罚则较轻（毕竟，在$\triangle y_i>1$时，$(\triangle y)^2\gg y$），受到的影响相对更小。当然，这也是个比较粗浅的观点，实质上最小一乘回归对应中位数回归，而最小二乘回归对应均值回归——最小一乘回归是一种特殊的分位数回归，分位数取二分位数，即中位数。鉴于本文并不是非参数统计的详解文章，这里就不再赘述最小一乘法的更多性质。写下这些文字，我想表达的是：最小一乘法与最小二乘法之间，本身并无绝对的优劣之分，至于哪种方法表现更好，视情况与需求而定。

另外，最小二乘线性回归出现较早、结构简单，是一种经典而传统的回归方法，预测能力较差，远远不及SVM等一众现代方法，这是他结构太过简易导致的，尤其是站在大模型正值风口的今天。但是，也正因如此，线性回归时至今日仍有非常广阔的运用，主要原因是其结构简单、模型解释性强，回归参数也有着非常明确的统计意义与现实背景，通常在不以精准预测为目的的数据分析任务中都会看到线性回归的身影——单单是回归系数的符号就已经能说明太多信息，譬如研究课后活动类型与花费时间对学生成绩的影响、探究某组合药物各成分的剂量对实验用小白鼠的影响。

最后，大名鼎鼎的方差分析也是一种线性回归，不过是较为特殊的线性回归，自变量均为分类数据；既含有离散的分类变量又含有连续的数量变量的线性回归，称为协方差分析。

方便起见，本文只讨论最基本的线性模型，且不考虑交互项。不过，读者很容易就能把本文的理论推广、扩展到这些内容上去。

一元线性回归公式速查

由于一些其他的教材针对一元线性回归使用了特别的记号，而在实际的理论和应用中，相当一部分数据以这类教材所采取的记号形式给出。为方便查阅，在此直接给出这种别于本文符号体系下的一元线性回归的全部基本公式，于下一小节再做详细证明。

$^{\ast}$ 在有的教材中，针对一元线性回归模型，规定：

$$ \left\{\begin{aligned} &l_{xx}=\sum(x_i-\bar{x})^2=\sum x^2_i-n{\bar{x}}^2\\ &l_{yy}=\sum(y_i-\bar{y})^2\ =\sum y^2_i-n{\bar{y}}^2\\ &l_{xy}=\sum(x_i-\bar{x})(y_i-\bar{y})=\sum x_iy_i-n\bar{x}\bar{y} \end{aligned}\right. $$

于是

$$ \hat{\beta}_1=(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T\boldsymbol y=\frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{\sum(x_i-\bar{x})^2}=\frac{l_{xy}}{l_{xx}} $$$$ \hat{\beta}_0=\bar{y}-\hat{\beta}_1\bar{x} $$

另外，在高斯-马尔可夫定理的条件下，有

$$ \begin{align}&(1)\ \ \ \hat{\beta}_0\sim N\left(\beta_0,\left(\frac1n+\frac{\bar{x}^2}{l_{xx}}\right)\sigma^2\right),\ \ \hat{\beta}_1\sim N(\beta_1,\frac{\sigma^2}{l_{xx}})\\&(2)\ \ \ \mathrm{Cov}(\hat{\beta}_0,\hat{\beta}_1)=-\frac{\bar{x}}{l_{xx}}\sigma^2\\&(3)\ \ \ \hat{y}_0=\hat{\beta}_0+\hat{\beta}_1x_0\sim N\left(\beta_0+\beta_1x_0,\left(\frac1n+\frac{(x_0-\bar{x})^2}{l_{xx}}\right)\sigma^2\right)\\&(4)\ \ \ \hat{\sigma}^2=\frac{SSE}{n-2}\text{，这是无偏估计}\\&(5)\ \ \ \mathbb{E}(SSR)=\sigma^2+\beta^2_1l_{xx},\ \ \mathbb{E}(SSE)=(n-2)\sigma^2\\&(6)\ \ \ \text{当}\beta_1=0\text{，有}\frac{SST}{\sigma^2}\sim\chi^2(n-1),\ \frac{SSR}{\sigma^2}\sim\chi^2(1),\ \frac{SSE}{\sigma^2}\sim\chi^2(n-2)\end{align} $$

相应的，$SST=l_{yy}$，$SSR=\hat{\beta}^2_1l_{xx}=\frac{l^2_{xy}}{l_{xx}}$，$SSE=SST-SSR$，在此一并给出参数显著性检验统计量：

关于

Mon, 01 Jan 0001 00:00:00 +0000

一只硕士生。

撰写文字的主要动机是「有趣」。

友链

Mon, 01 Jan 0001 00:00:00 +0000