泛函分析与测度论视角下的方差缩减技术

Wed, 27 May 2026 10:01:26 +0000

引言

方差缩减技术（VRT, Variance Reduction Techniques）是应用在蒙特卡洛方法（MC, Monte Carlo Method）中的一系列技术，旨在不单纯增大样本量而是通过统计技巧以降低估计量的方差，从而在相同计算量下提高估计精度。

设随机向量 $\boldsymbol{x}$ 的概率分布为 $p(\boldsymbol{x})$、被估计期望值等于 $\mu$ 的目标函数为 $f(\boldsymbol{x})$、样本总数为 $N$、$\boldsymbol{X}_i$ 为从总体 $\boldsymbol{X}$ 中独立抽取的第 $i$ 份样本，则蒙特卡洛模拟为

$$ \mu=\int f(\boldsymbol{x})p(\boldsymbol{x})\mathrm{d}\boldsymbol{x}\approx\frac1{N}\sum^N_{i=1}f(\boldsymbol{X}_i)=\hat{\mu}_{\text{MC}} $$

蒙特卡洛方法的成立是由辛钦大数定律（Khinchin’s Law）、科尔莫戈罗夫强大数定律（Kolmogorov’s Strong Law）与遍历定理（Ergodic Theorem）等大数定律所严格保证的。蒙特卡洛方法的本质思想十分朴素：用随机样本的平均值逼近总体的期望。

然而，许多情况下，或许是因为样本难以获得，或许是因为样本的采集成本昂贵，加之估计量的标准误 $\varepsilon\propto\frac1{\sqrt{N}}$ 的数学规律决定了单纯增加样本量对精度改进的效率低下，迫使我们考虑通过方差缩减技术以获得更精确的估计。

作为一系列诞生于统计计算领域的方法，方差缩减技术在供应链管理、期权定价与强化学习等诸多场景下被广泛使用。

对于蒙特卡洛方法而言，误差源于 $f(\boldsymbol{X})$ 的波动，而这种波动可被分解为函数值本身的随机性与采样测度、积分贡献区域的不匹配两种来源。站在更高的观点（泛函分析与测度论）下看，方差缩减机制可被归结为两类：

利用子空间中的向量抵消原向量中的一部分残差波动，降低不可解释的随机性；
测度变换，降低采样机制带来的随机性（重要性采样）。

第一种方差缩减机制可以按丢弃还是保留子空间的投影被进一步区分为两种：

丢弃子空间的投影（控制变量、对偶变量、分层抽样）；
保留子空间的投影（Rao-Blackwellization）。

第一种方差缩减机制还可以按如何生成子空间分类：

利用条件期望（分层抽样、Rao-Blackwellization）
其他（控制变量、对偶变量）

撰写本文的动机，是发现 PPO 中大量使用了重要性采样。

此外，若无特别说明，本文允许 $\boldsymbol{X}$ 为多维随机向量，但默认目标函数 $f(\boldsymbol{X})$ 为实值函数。

1. 控制变量 Control Variates

如果我们事先知道一个与 $f(\boldsymbol{X})$ 相关且期望 $\mu_g$ 已知的变量 $g(\boldsymbol{X})$，那么就可以从 $f(\boldsymbol{X})$ 估计量的波动中剔除能被 $g$ 解释的部分。

设 $\beta\in\mathbb{R}$ 为人为设定的系数，则修正估计量为

方差缩减技术 on 二三事

泛函分析与测度论视角下的方差缩减技术

引言

1. 控制变量 Control Variates