Math-Statistics on 二三事

泛函分析与测度论视角下的方差缩减技术

Wed, 27 May 2026 10:01:26 +0000

引言

方差缩减技术（VRT, Variance Reduction Techniques）是应用在蒙特卡洛方法（MC, Monte Carlo Method）中的一系列技术，旨在不单纯增大样本量而是通过统计技巧以降低估计量的方差，从而在相同计算量下提高估计精度。

设随机向量 $\boldsymbol{x}$ 的概率分布为 $p(\boldsymbol{x})$、被估计期望值等于 $\mu$ 的目标函数为 $f(\boldsymbol{x})$、样本总数为 $N$、$\boldsymbol{X}_i$ 为从总体 $\boldsymbol{X}$ 中独立抽取的第 $i$ 份样本，则蒙特卡洛模拟为

$$ \mu=\int f(\boldsymbol{x})p(\boldsymbol{x})\mathrm{d}\boldsymbol{x}\approx\frac1{N}\sum^N_{i=1}f(\boldsymbol{X}_i)=\hat{\mu}_{\text{MC}} $$

蒙特卡洛方法的成立是由辛钦大数定律（Khinchin’s Law）、科尔莫戈罗夫强大数定律（Kolmogorov’s Strong Law）与遍历定理（Ergodic Theorem）等大数定律所严格保证的。蒙特卡洛方法的本质思想十分朴素：用随机样本的平均值逼近总体的期望。

然而，许多情况下，或许是因为样本难以获得，或许是因为样本的采集成本昂贵，加之估计量的标准误 $\varepsilon\propto\frac1{\sqrt{N}}$ 的数学规律决定了单纯增加样本量对精度改进的效率低下，迫使我们考虑通过方差缩减技术以获得更精确的估计。

作为一系列诞生于统计计算领域的方法，方差缩减技术在供应链管理、期权定价与强化学习等诸多场景下被广泛使用。

对于蒙特卡洛方法而言，误差源于 $f(\boldsymbol{X})$ 的波动，而这种波动可被分解为函数值本身的随机性与采样测度、积分贡献区域的不匹配两种来源。站在更高的观点（泛函分析与测度论）下看，方差缩减机制可被归结为两类：

利用子空间中的向量抵消原向量中的一部分残差波动，降低不可解释的随机性；
测度变换，降低采样机制带来的随机性（重要性采样）。

第一种方差缩减机制可以按丢弃还是保留子空间的投影被进一步区分为两种：

丢弃子空间的投影（控制变量、对偶变量、分层抽样）；
保留子空间的投影（Rao-Blackwellization）。

第一种方差缩减机制还可以按如何生成子空间分类：

利用条件期望（分层抽样、Rao-Blackwellization）
其他（控制变量、对偶变量）

撰写本文的动机，是发现 PPO 中大量使用了重要性采样。

此外，若无特别说明，本文允许 $\boldsymbol{X}$ 为多维随机向量，但默认目标函数 $f(\boldsymbol{X})$ 为实值函数。

1. 控制变量 Control Variates

如果我们事先知道一个与 $f(\boldsymbol{X})$ 相关且期望 $\mu_g$ 已知的变量 $g(\boldsymbol{X})$，那么就可以从 $f(\boldsymbol{X})$ 估计量的波动中剔除能被 $g$ 解释的部分。

设 $\beta\in\mathbb{R}$ 为人为设定的系数，则修正估计量为

矩阵基础

Mon, 10 Jul 2023 13:17:56 +0000

本文主要是一些关于矩阵的相对初等的内容，是考研期间做的完整考研线性代数归纳总结，目的是方便查阅。现在来看，这篇文章的主要任务是收纳若干关于矩阵的初级线性代数知识与技巧，对于线性空间、线性变换等内容，暂不涉及。在作者看来，这一部分的知识里理论的成分居多，读者如有需求，还是直接参考专业的线性代数或高等代数教材为好。

作者本科专业是数学与应用数学，后在学院内转去了统计学 (数理方向)，有一定的数学基础，所以最基本的概念等本文就不再赘述了😊例如矩阵转置及其性质、矩阵逆的定义等等。

本文集作者所学同时参考了大量的文献和网络资料，在整理和归纳时难免有所纰漏，如果发现有错误的内容可以邮件联系我以订正。

本文中凡是没有特别指明的，都限制在实数域上讨论。如果需要在线做一些矩阵运算，个人推荐 WolframApha；如果需要做一系列复杂矩阵运算，个人推荐 Mathematica。

矩阵

(数字) 矩阵只是一个数表，作者看来没有所谓本质：他只是一张表，我们要往里面装什么东西，比如实数、复数、矩阵甚至随机变量，或是定义某种“奇形怪状”的新运算，都是可行的——“矩阵是什么”这个问题，取决于“我们希望用矩阵做什么”；如果一定要问出个“本质”来，那可能是线性变换吧；尽管矩阵也可以代表一个线性方程组（的系数），(数字) 矩阵的某些性质从该角度看更为直观。如果把矩阵看成向量组，那么一些向量组问题的答案瞬间便水落石出。矩阵还有许多其他作用，在不同的场景下有不同的任务，这里就不一一列举了。

众所周知，左乘初等矩阵等于做相应的行变换，右乘初等矩阵等于做相应的列变换，那么什么时候只能做行变换，什么时候只能做列变换呢？

一般而言：

当把矩阵视为列向量的排列后，如果要直接确定线性相关的列向量之间的数量关系（例如已知某向量可以同时被两组向量线性表出，求该向量的值），则只能做初等列变换，因为只有列变换才是列向量间而不是其分量间的线性组合，保持了列向量的代数结构（但是可能会改变线性相关式$\sum k_i\alpha_i=0$的系数$\{k_i\}$）；
当把矩阵视为列向量的排列后，如果要确定列向量的极大线性无关组（也可以是判断线性相关性），则只能做初等行变换，因为就线性相关性而言，矩阵的行秩等于列秩，但如果做初等列变换就会改变列向量的位置，从而无法确定本来的列向量组中到底谁和谁线性相关；
当把矩阵视为线性方程的系数表时，如果要通过高斯消元法解方程，则只能做初等行变换，因为线性方程整体相加减不改变解的值，但如果做列变换则相当于把一个未知数的系数加到了另一个未知数上，破坏了线性方程的结构；

到底该行变换还是列变换，只是取决于目的是什么。例如第一个例子“已知某向量可以同时被两组向量线性表出，求该向量的值”，既可以将两个向量组视为列向量的排列而做初等列变换，也可以等价地认为两组向量依次列成的矩阵$A$与那个可以被同时表出的向量$b$构成的方程组$Ax=b$有解，从而利用高斯消元法对$A$做初等行变换。

矩阵等价

矩阵等价：如果矩阵$A$可以经有限次初等变换得到$B$，则$A\cong B$（矩阵等价）

上述条件等价于存在一系列初等矩阵$P_1,P_2,\cdots,P_n,Q_1,Q_2,\cdots,Q_m$，使得$A=P_1P_2\cdots P_nBQ_1Q_2\cdots Q_m$

注：矩阵乘法按“左行右列”规则计算，表现为做乘时是用左边的行向量点乘右边的列向量得到新矩阵的一个元素，也表现为左乘初等矩阵则对原矩阵做相应行变换、右乘初等矩阵则对原矩阵做相应列变换
同型矩阵等价的充要条件是秩相等（判断方法，矩阵等价的充要条件）

联系到定义：初等矩阵总是满秩而可逆的
若矩阵可逆则一定与$E$等价，从特征值角度看是特征值均非零，因此行列式不为$0$，故矩阵可逆；从初等矩阵角度看，他可以被视作为有限个代表初等行列变换的初等矩阵的复合（矩阵乘法），即可以由$E$经过有限次初等变换得到；也可以说该矩阵的对角矩阵一定为$E$
如果实矩阵$A$与$B$等价，那么$A^2$与$B^2$不一定等价，除非$A,B$中有一个矩阵为可逆矩阵

如果实矩阵$A$与$B$等价，那么$AB$与$AB$也不一定等价，除非$A,B$中有一个矩阵为可逆矩阵

如果实对称阵$A$与$B$合同，那么$A^2$与$B^2$合同

如果实对称阵$A$与$B$相似，那么$A^2$与$B^2$相似

之所以对两个等价的矩阵$A,B$不一定有$A^2$与$B^2$等价，是因为尽管$A^2$与$B^2$的特征值相等，但二者的秩却不一定相等。进一步讲，更本质的原因是二者零特征值的几何重数不一定相等。也就是说，即使$A,B$相似，从而$A,B$的零特征值有相同的代数重数与几何重数，则只能得出$A^2$与$B^2$的零特征值有相同的代数重数，但其几何重数可能是不相等的。对于命题“$AB$与$AB$也不一定等价”，原因同理；

最经典的例子是：
$$ \left\{\begin{aligned}&A=\left(\begin{matrix}1&1&\cdots&1\\0&0&\cdots&0\\\vdots&\vdots&&\vdots\\0&0&\cdots&0\end{matrix}\right)_{n\times n}&&B=\left(\begin{matrix}1&1&\cdots&1\\-1&-1&\cdots&-1\\\vdots&\vdots&&\vdots\\0&0&\cdots&0\end{matrix}\right)_{n\times n}\\&A^2=A&&B^2=O\\&BA=A&&AB=O\end{aligned}\right. $$
其中
$$ r(A)=r(B)=1 $$$$ r(A^2)=1,\ \ \ \ r(B^2)=0 $$$$ r(BA)=1,\ \ \ \ r(AB)=0 $$
这个例子十分经典，务必了解

矩阵合同

矩阵合同：合同一定等价
矩阵合同：若存在可逆阵$C$，使得$C^TAC=B$，则$A\simeq B$（矩阵合同）

其中$C^TAC$称为$A$的合同变换，实对称矩阵经合同变换还是实对称矩阵

合同变换不要求$A,B$都是对称阵，但对称阵经合同变换只能是对称阵，非对称阵经合同变换只能是非对称阵
对称矩阵合同：对称矩阵若相似则一定合同
对称矩阵合同的充要条件：正负惯性指数相等；规范型相同
实对称矩阵$A$与他的逆$A^{-1}$合同，即二者具有相同的规范型，这是因为$A=AA^{-1}A=A^TA^{-1}A$
合同变换不改变正负惯性指数
等价关系：矩阵等价、相似与合同都是广义上的
等价关系（所以也有人认为矩阵等价应该译作相抵，以免与逻辑关系上的等价冲突），均满足自反性、对称性与传递性
相似必然合同，但合同不一定相似
在欧氏空间中，合同变换体现为在平面到自身的一一变换下，任意线段的长和它的像的长总相等

考研数学（微积分）（下）

Tue, 16 May 2023 13:17:56 +0000

part Ⅱ主要内容为 不等式、常微分方程 (ODE)、级数理论 和 多元函数微积分，包括工具定理、计算方法与部分证明，以例题辅助解释。

常用常数

任何正数的任意根次之值$\sqrt[k]{a}=x_0\Leftrightarrow f(x_0)=x^k_0-a=0$都可以用牛顿-辛普森优化算法计算：$x_{n+1}=x_n-\frac{f(x_n)}{f'(x_n)}=\frac1k\left((k-1)x_n+\frac a{x^{k-1}_n}\right)$，特别的对于二次根式$\sqrt{a}=x$有$x_{n+1}=\frac12\left(x_n+\frac a{x_n}\right)$；非多项式函数不方便笔算，也可以类似地考虑切线法、不动点法等其他优化算法计算其数值解（要是有计算机，利用已有的库现写一个BFGS算法也不是难事）。不过简便起见，本文提供一些常见的常数以供查阅，略去计算的步骤。

$\pi\approx3.141593$；

展开/收起 π 的一些极限/级数式

$$ \pi=\lim\limits_{\,n\to\infty}n\sin\frac{180\degree}{n} $$$$ \pi=\lim\limits_{n\to\infty}2^n\underbrace{\sqrt{2-\sqrt{2+\sqrt{2+\sqrt{2+\cdots+\sqrt2}}}}}_{n-1\text{ squre roots}} $$

$e=\lim\limits_{n\to\infty}\left(1+\frac1n\right)^n\approx2.718282$；
$\gamma=\lim\limits_{n\to\infty}\left(\sum\limits^n_{k=1}\frac1k-\ln n\right)=\lim\limits_{n\to\infty}\left(\displaystyle{\int^1_0\frac{1-x^n}{1-x}\mathrm{d}x-\ln n}\right)\approx0.577216$；
$\pi^2\approx8.824978$；
$e^2=7.389056$；
$\sqrt2\approx1.414214$；
$\sqrt{e}=1.648721$；
$\sqrt3\approx1.732051$；
$\sqrt{\pi}=\displaystyle{\int_{\mathbb{R}}e^{-x^2}\mathrm{d}x=2\,\Gamma\big(\frac12\big)\approx1.772454}$；
$\sqrt5\approx2.236068$；
$\sqrt7\approx2.645751$；
$\sqrt{11}\approx3.316625$；
$\sqrt{13}\approx3.605551$；
$\ln2\approx0.693147$；
$\ln3\approx1.098612$；
$\ln5\approx1.609438$；
$\ln7\approx1.945910$；

不等式综述

不等式在分析学中是极其重要的，某种意义上，数学分析和实分析是玩弄不等式的艺术。

多元不等式

多元不等式更“普适”、更“普通”，例如柯西不等式和$x>0$时$\sin x\lt x$的区别。

排序不等式

$$ \text{倒序和 }\leqslant\text{ 乱序和 }\leqslant\text{ 顺序和} $$

设长度为$n$的有限数列$\{a_i\}$与$\{b_i\}$单调递增，即$a_1\leqslant a_2\leqslant\cdots\leqslant a_n$、$b_1\leqslant b_2\leqslant\cdots\leqslant b_n$，则

$$ \sum^n_{i=1}a_ib_{n-i+1}\leqslant\sum^n_{i=1}a_ib_{k_i}\leqslant\sum^n_{i=1}a_ib_i $$

其中$\{b_{k_i}\}$是$\{b_i\}$中元素的任意乱序排列。

排序不等式的证明（配合Abel变换）

切比雪夫的和不等式

切比雪夫不等式的离散形式是排序不等式的推广。

The James-Stein Estimator

Wed, 26 Apr 2023 16:15:23 +0000

本人没有能力开拓什么，只能综合前辈们的观点尽量感悟；没有打算、更没有能力深入研究收缩估计，不过是对Stein’s paradox的奇怪现象感到诧异，来了兴趣，所以查阅多手资料后写下了本文。

本文主要参考文献
把他们列在文首，只因为我看来这些文章比本文更有价值，推荐参考

Estimation with Quadratic Loss

ESTIMATION WITH QUADRATIC LOSS - Yale University

1961年Willard James与Charles Stein的文章，在这里James-Stein估计被首次提出，点击此处下载论文。

大规模推断讨论班：经验贝叶斯与 James-Stein 估计量 - GitHub

这篇文章非常系统地从经验Bayes观点引出了Stein理论与Robbins理论，读完后收获颇丰，本文也有所参考。也说明了，所谓“频率学派”、“贝叶斯学派”的对立，“贝叶斯世界观”等描述并不准确，频率方法和Bayes方法不是水火不容的，统计学发展到今天，他们本身的界限就比较模糊。

赵世舜. 矩阵加权估计及James-Stein估计的再研究 [D]. 吉林：吉林大学，2006.

感谢这篇博士论文为我提供的帮助，第二章定理证明的思路是源自于这份文献的；好像在2017年赵已经在吉林大学数学学院升任教授职务了。

~~本文不是正经的论文，懒得划出具体的引用😊~~以上文献本身亦引用了较多文献，如果有兴趣，不妨也读一读。

本文用到了一些缩写：MLE指极大似然估计，UMVUE指一致最小方差无偏估计，MSE指均方误差，G-M定理指高斯-马尔可夫定理。

the James-Stein Estimator

众所周知，$p$元正态分布总体$N_p(\boldsymbol{\mu},\sigma^2\boldsymbol{I}_p)$数学期望的MLE是样本均值，即$\hat{\boldsymbol{\mu}}^{(MLE)}=\bar{\boldsymbol{X}}=\sum\limits^n_{i=1}\frac{\boldsymbol{X}_i}{n}$，是一个十分符合直觉且自然的统计量，由于他的简单直接，通常多数人也会采取他为总体期望的估计。事实上，由于正态分布族系指数族，并且$\bar{\boldsymbol{X}}$是$\boldsymbol{\mu}$是充分完备统计量，故根据Lehmann–Scheffé定理，样本均值是总体期望的UMVUE——这意味着，在无偏估计中样本均值的方差是最小的，可见样本均值是一个性质优良的估计。进一步地，$\mathrm{Var}(\bar{\boldsymbol{X}})$达到了Cramer-Rao下界。

但是，这并不意味着样本均值在任何意义下都是最“好”的！1961年由Willard James和Charles Stein基于1956年Charles Stein提出的早期版本所改进得到的James-Stein estimator（下简称JSE）就是这样一个例子，当用$\mathrm{SE}$表示的样本均值的标准误时，有

$$ \hat{\boldsymbol{\mu}}^{(JSE)}=\left(1-\frac{(p-2)\cdot\mathrm{SE}}{\bar{\boldsymbol{X}}^T\bar{\boldsymbol{X}}}\right)\cdot\bar{\boldsymbol{X}}\tag{1} $$

$(1)$式可视为样本量$n=1$的推广，如果只有一个样本，则$(1)$退化为

$$ \hat{\boldsymbol{\mu}}^{(JSE)}_{n=1}=\left(1-\frac{(p-2)\cdot\sigma^2}{\Vert \boldsymbol{X}\Vert^2}\right)\cdot\boldsymbol{X}\tag{2} $$

相较于样本均值，JSE的方差显著减小了；尽管失去了无偏性，但渐进无偏，最重要的是在$p\geqslant3$情况下其MSE严格小于样本均值，这时JSE严格一致优于样本均值，这一现象也被称为Stein’s paradox。~~当p=2时显然JSE等价于样本均值。~~

这个结论第一眼看起来真的出人意料！这似乎违背经验，毕竟在我们的印象中，寻找、构造UMVUE一直都是统计学家的“毕生追求”，然而JSE的出现却表明，在非无偏估计家族中、在某些情况下，我们或许有比UMVUE更好的选择（这具体取决于我们在特定情境下如何定义“损失”标准）。

这也深刻地说明了，UMVUE其实并没有设想的那般“绝对的好”，当我们把眼光放宽到无偏估计，可能还有更“好”的估计在等着我们发掘。JSE就揭示了，**当维数大于2，样本均值作为UMVUE就未必还是最好的估计！**换句话说，在低维可容许的样本均值，在高维是不可容许的，这侧面印证了低维直觉放在高维中很可能是错误的，高维统计中还有很多这样的例子。

Tip: 由于正态分布的样本均值仍服从正态分布，为简便起见，后文中如若未做特别说明，则只考虑$n=1$的情况，不再区分$\bar{\boldsymbol{X}}$与$\boldsymbol{X}$。

James-Stein型估计的风险

这里将按照赵世舜在其博士学位论文中所给出的，仿照1981年Stein、1990年Brandwein与Strawderman给出的较为简单的证明，证明当$02$且$b\geqslant0$时，James-Stein型估计$\left(1-\frac{a\sigma^2}{b+\boldsymbol{X}^T\boldsymbol{X}}\right)\boldsymbol{X}$的风险一致小于$\boldsymbol{X}$的；并且，当$a=p-2$时，估计的风险达到最小，若进一步$b=0$，这时估计正是JSE，即$\hat{\delta}_{p-2,0}=\hat{\boldsymbol{\mu}}^{(JSE)}$。

~~看过1961年Willard James与Charles Stein的论文原文，这部分没有看懂，所以不按那最古老的方法证明风险一致地小了。~~

引理 1 (成平等，1985) 当$X\sim N(\mu,\sigma^2)$，$h(x)$可微且$\lim\limits_{x\to\infty}\frac{h(x)}{e^{\frac12(x-\mu)^2}}$，有

$$ \mathbb{E}\big[(h(X)(X-\mu)\big]=\mathrm{Cov}\big(X,h(Y)\big)=\sigma^2\mathbb{E}\big[h'(X)\big]\tag{3} $$

在后文的证明中只会用到$\sigma^2=1$的情形。

定理 1 以二次损失定义风险，设$\boldsymbol{X}\sim N_p(\boldsymbol{\mu},\sigma^2\boldsymbol{I}_p)$，则当$0

考研数学（微积分）（上）

Thu, 06 Apr 2023 18:23:33 +0000

想了想，还是写Markdown更容易保存；作为考研高数的完整笔记，内容多了以后电子文档增删查改起来容易些。

part Ⅰ主要内容为极限与 一元微积分，涉及较多方面。

只要数学家名称与定理名称较为常见、有广为接受的中文翻译，就都用中文表示了；两篇文章都主要限定在$\mathbb{R}$上讨论，后文不再强调了。移动端阅读体验可能比较糟糕，尤其是用手机浏览长公式时。

如有纰漏，可以邮件联系我以订正。为了不影响主干内容的连贯，部分例题被折叠了起来。

注意

可证明，对$f(x)^{g(x)}$形式的式子，是可以直接对$f(x)$与$g(x)$运用泰勒公式的（只要运用正确，精度足够），自然对所谓的“等价无穷小”也是成立的，这在求极限中非常实用、方便；
第一、第二数学归纳法是极其好用的工具，需要熟练掌握并学会灵活运用（实为严格的演绎法）。归纳法不仅能运用在定理证明中，甚至可以配合单调有界定理证明数列极限的存在性。

例如设$1\lt a\leqslant e^{\frac1e}$，$x_1=a$，且当$n>1$时有$x_n=a^{x_{n-1}}$，试证极限$\lim\limits_{n\to\infty}x_n$存在。

观察到$x_2=a^{x_1}=a^a>a=x_1$，于是猜想$\{x_n\}$可能单调递增；做归纳假设$x_n>x_{n-1}$成立，则有$x_{n+1}=a^{x_n}>a^{x_{n-1}}=x_n$，因此由第一归纳法，数列$\{x_n\}$确为单调递增。下证数列有界，首先有$x_1=a\leqslant e^{\frac1e}\lt e$，再次运用归纳法，假设$\forall n\lt k,\ x_n\lt e$，则$x_{n+1}=a^{x_n}\lt a^e\leqslant e$，同时容易知道$\forall n,\ x_n>1$，因此数列有界；最后，根据单调有界定理可知，该数列极限存在。
在点$x_0$处使用泰勒公式的条件：$f(x)$在含点$x_0$的某个开区间$(a,b)$内有$n+1$阶导数，则$f(x)$可以按$(x-x_0)$展开到$n$阶；
求极限$\lim\limits_{x\to a}\frac{f(x)}{g(x)}$时使用洛必达法则的条件：除了要求分子分母满足不定式条件，$f(x)$与$g(x)$的导数在$a$的某个邻域内应均存在，且导数比值的极限为一广义常数$A$时，才有$\lim\limits_{x\to a}\frac{f(x)}{g(x)}=\lim\limits_{x\to a}\frac{f'(x)}{g'(x)}=A$成立；其中$A$可以是无穷大。
不要混淆了记号。$\lim\limits_{x\to {x_0}^+}f(x)$与$f(x_0+0)$均为右极限的记号，定义为：$\forall \varepsilon>0$，$\exists\delta>0$，$s.t.\,\,$当$0\lt x-x_0<\delta$时，有$|f(x)-A|<\varepsilon$，则称$A$为$f(x)$在点$x_0$处的右极限。从实数轴上看，右极限是“从数轴的右侧逼近”、“从数轴的正侧逼近”的单侧极限，与之对应的是左极限。

但是一般而言，导数的右极限$\lim\limits_{x\to {x_0}^+}f(x)$存在不等价于右导数$f'_+(x)$存在！！！导数的左极限与左导数的关系同理。
数学辅助工具上，个人十分推荐 Mathematica：无论是优化问题、矩阵求逆等数值计算，还是不定积分、微分方程、泰勒 / 洛朗级数等符号计算，Mathematica都能处理自如；此外，微软用Python语言开发的 Z3 也是一个强大的工具。Wolfram|Alpha 是基于Mathematica的，提供了图形化的在线网页界面，可以十分方便地进行常见的运算，让初学者不需要任何代码也可以借助计算机完成一些数学计算。

对于函数图像，可以通过 Desmos 简单绘制，Desmos同样提供了在线网站，可以便捷得画出简单或复杂函数的图像。如果对一些简单函数如$\arccos x$的图像不熟悉，可以通过Desmos直接画出其图像；对一些相对复杂的函数Desmos也能胜任，甚至还能从中看出函数在间断点的极限。

初等数学简记

二项式定理：$\forall n\in\mathbb{N}^+$，$(a+b)^n=\sum\limits^n_{k=0}\binom{n}{k}a^{n-k}b^k$；
$n$次方的差公式：$\forall n\in\mathbb{N}^+$，$a^n-b^n=(a-b)\sum\limits^{n-1}_{k=1}a^{n-k}b^k$
- 特别地，平方差公式的一个有趣应用是对根式差极限的处理：$\sqrt{f(x)}-g(x)=\frac{f(x)-g^2(x)}{\sqrt{f(x)}+g(x)}$；
- 当$b=1$时，有：$(x-1)^n=(x-1)(x^{n-1}+x^{n-2}+\cdots+x+1)$
令上式$b:=-b$则得到$n$次方和公式，注意当$n$为正偶数时$a^n+b^n=0$没有实数根，自然也不能在$\mathbb{R}$内分解因式。当$n$为奇数时，有：$a^n+b^n=(a+b)(a^{n-1}-a^{n-2}b+\cdots-ab^{n-2}+b^{n-1})$；
- 特别地，当$b=1$且$n$为奇数时，有：$(x+1)^n=(x+1)(x^{n-1}-x^{n-2}+\cdots+a^2-a+1)$；
中学数列通项求法大全：高中数学：求数列通项公式的十一种方法（方法全，例子全，归纳细）
一般$2$元$2$次方程解法：对于一般的$2$元$2$次方程组，可以将其改写为二次型的形式，
$$ \left\{\begin{aligned} &\ \ \ \ (x,y,1)\boldsymbol{A}\left(\begin{array}{c}x\\y\\1\end{array}\right)=0\\ &\ \ \ \ (x,y,1)\boldsymbol{B}\left(\begin{array}{c}x\\y\\1\end{array}\right)=0 \end{aligned}\right. $$
其中$\boldsymbol{A},\boldsymbol{B}$是三阶实对称矩阵，

回归分析

Sun, 08 Jan 2023 18:11:25 +0000

方便起见，本文用$\Vert\cdot\Vert^2$代表$\Vert\cdot\Vert_2^2$，其中$\Vert\cdot\Vert_2$是$l^2$或$L^2$范数，用RSS或SSE表示残差平方和，用SSR表示回归平方和，用SST表示总平方和，用OLS表示最小二乘法，用MLE表示极大似然估计，并采用下分位数的记号。

本文最初是作为本科阶段期末考试的复习总结，★代表考试中重要程度，●代表不会刻意作为考点，◆代表只考察解读或名词解释，不考察理论推导与证明，最后▲代表虽然是复习课上明确提到的必考内容，但会做变形或考察类似题目。由于本文作于作者大三时期，且原先的目的也只是系统地总结回归分析考试考点，所以本文不会十分深入地探究太多涉及底层理论的内容；文章侧重点更多的还是线性回归本身的理论，所以一些应用中的处理方法和可能遇到的问题并没有太多诠释。

不过，后来断断续续扩写补充了相当一部分本科课程以外的内容，如果读者仅仅希望将本文作为（西南大学统计系）期末考试的复习笔记，则没有任何记号标记的标题下的内容，均可以忽略。

参考书目有：

学院的本科授课教材，即王松桂等人所编著的《线性统计模型：线性回归与方差分析》
同时也参考了茆诗松等编著的《概率论与数理统计教程 (第三版)》与贾俊平等编著的《统计学 (第8版)》
若干网络资源与Wiki百科

在此感谢我的回归分析任课教师徐文昕老师。

前言

最小二乘法有着极为广泛的运用，他的优良性质由高斯-马尔可夫定理所保证；除此之外，如果残差还独立同分布于正态分布，则此时OLS等价于MLE。即便残差并不服从正态分布，只要满足高斯-马尔可夫定理的基本条件，那么OLS就是最优的无偏估计，这说明了线性回归的强大之处。

然而在许多情形下，相对于一些其他的方法（尤其是非参数方法），OLS在稳健性方面略显疲态。考虑到最小二乘法的损失函数为RSS，一旦样本数据中出现了严重偏离总体的异常点，误差将会在被平方后大幅增加。这种情况下，如果依然希望最小化RSS，可能导致OLS的值因此而发生较大的变化，使得回归曲线偏向于异常点，换句话说：OLS是对异常值十分敏感。

让我们把目光转向最小一乘法。最小二乘法的损失函数为$\text{RSS}=\Vert y-\hat{y}\Vert^2_2$，而最小一乘法的损失函数为$\Vert y-\hat{y}\Vert_1=\sum\limits^n_{i=1}\vert y_i-\hat{y}_i\vert$，从损失函数的形式上看，如果出现异常值，显然RSS产生的惩罚更严重，而最小一乘法的惩罚则较轻（毕竟，在$\triangle y_i>1$时，$(\triangle y)^2\gg y$），受到的影响相对更小。当然，这也是个比较粗浅的观点，实质上最小一乘回归对应中位数回归，而最小二乘回归对应均值回归——最小一乘回归是一种特殊的分位数回归，分位数取二分位数，即中位数。鉴于本文并不是非参数统计的详解文章，这里就不再赘述最小一乘法的更多性质。写下这些文字，我想表达的是：最小一乘法与最小二乘法之间，本身并无绝对的优劣之分，至于哪种方法表现更好，视情况与需求而定。

另外，最小二乘线性回归出现较早、结构简单，是一种经典而传统的回归方法，预测能力较差，远远不及SVM等一众现代方法，这是他结构太过简易导致的，尤其是站在大模型正值风口的今天。但是，也正因如此，线性回归时至今日仍有非常广阔的运用，主要原因是其结构简单、模型解释性强，回归参数也有着非常明确的统计意义与现实背景，通常在不以精准预测为目的的数据分析任务中都会看到线性回归的身影——单单是回归系数的符号就已经能说明太多信息，譬如研究课后活动类型与花费时间对学生成绩的影响、探究某组合药物各成分的剂量对实验用小白鼠的影响。

最后，大名鼎鼎的方差分析也是一种线性回归，不过是较为特殊的线性回归，自变量均为分类数据；既含有离散的分类变量又含有连续的数量变量的线性回归，称为协方差分析。

方便起见，本文只讨论最基本的线性模型，且不考虑交互项。不过，读者很容易就能把本文的理论推广、扩展到这些内容上去。

一元线性回归公式速查

由于一些其他的教材针对一元线性回归使用了特别的记号，而在实际的理论和应用中，相当一部分数据以这类教材所采取的记号形式给出。为方便查阅，在此直接给出这种别于本文符号体系下的一元线性回归的全部基本公式，于下一小节再做详细证明。

$^{\ast}$ 在有的教材中，针对一元线性回归模型，规定：

$$ \left\{\begin{aligned} &l_{xx}=\sum(x_i-\bar{x})^2=\sum x^2_i-n{\bar{x}}^2\\ &l_{yy}=\sum(y_i-\bar{y})^2\ =\sum y^2_i-n{\bar{y}}^2\\ &l_{xy}=\sum(x_i-\bar{x})(y_i-\bar{y})=\sum x_iy_i-n\bar{x}\bar{y} \end{aligned}\right. $$

于是

$$ \hat{\beta}_1=(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T\boldsymbol y=\frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{\sum(x_i-\bar{x})^2}=\frac{l_{xy}}{l_{xx}} $$$$ \hat{\beta}_0=\bar{y}-\hat{\beta}_1\bar{x} $$

另外，在高斯-马尔可夫定理的条件下，有

$$ \begin{align}&(1)\ \ \ \hat{\beta}_0\sim N\left(\beta_0,\left(\frac1n+\frac{\bar{x}^2}{l_{xx}}\right)\sigma^2\right),\ \ \hat{\beta}_1\sim N(\beta_1,\frac{\sigma^2}{l_{xx}})\\&(2)\ \ \ \mathrm{Cov}(\hat{\beta}_0,\hat{\beta}_1)=-\frac{\bar{x}}{l_{xx}}\sigma^2\\&(3)\ \ \ \hat{y}_0=\hat{\beta}_0+\hat{\beta}_1x_0\sim N\left(\beta_0+\beta_1x_0,\left(\frac1n+\frac{(x_0-\bar{x})^2}{l_{xx}}\right)\sigma^2\right)\\&(4)\ \ \ \hat{\sigma}^2=\frac{SSE}{n-2}\text{，这是无偏估计}\\&(5)\ \ \ \mathbb{E}(SSR)=\sigma^2+\beta^2_1l_{xx},\ \ \mathbb{E}(SSE)=(n-2)\sigma^2\\&(6)\ \ \ \text{当}\beta_1=0\text{，有}\frac{SST}{\sigma^2}\sim\chi^2(n-1),\ \frac{SSR}{\sigma^2}\sim\chi^2(1),\ \frac{SSE}{\sigma^2}\sim\chi^2(n-2)\end{align} $$

相应的，$SST=l_{yy}$，$SSR=\hat{\beta}^2_1l_{xx}=\frac{l^2_{xy}}{l_{xx}}$，$SSE=SST-SSR$，在此一并给出参数显著性检验统计量：