文献解读背景
Tobias Fissler、Michael Merz 与 Mario V. Wüthrich 于 2021 年首先在 arXiv 发布预印本论文 Deep Quantile and Deep Composite Model Regression。随后于 2023 年正式发表于期刊 Insurance: Mathematics and Economics 第 109 卷(2023 年 3 月,Pages 94–112),论文标题调整为 Deep quantile and deep composite triplet regression。
带有 “补充” 的标题,是本文额外补充的内容;反之,则属于原文献中的内容。
其他方法的局限
OLS 以最小二乘函数作为损失函数,即 MSE,最优解为条件均值。
但金融和保险数据往往是重尾且偏态的,均值的代表性不足。
且最小二乘回归(OLS)假定上下误差对称,在该类数据场景下同样适用性有限。
对于 GLM,通常假设 $y$ 服从某个指数族分布(或 tweedie),相当于预先给定了条件分布的函数形式。
文献提到,真实保险理赔数据中,bulk 和 tail 从机制上有根本不同,以单一参数分布统一刻画二者并不恰当,比如没有考虑到协变量对 bulk 与 tail 的不同影响。
例如,保单持有人的年龄变量也许是解释小额赔案系统性影响的重要变量,但在解释大额赔案时却可能无关紧要。这种现象可能由从小额赔案到大额赔案时伤害类型的变化所隐含(事故保险),也可能由从小额保额到大额保额时行业细分的变化所隐含(工业火灾保险);一个明确的例子见 Fung et al. (2022) 第 5.3 节。
而且 GLM 能直接指导的也是均值。
从风险管理角度看,人们还关心其他量,例如分位数和期望短缺(ES)。如果前述 EDF 内的分布模型并不适合刻画观测数据,那么即便期望值估计得非常精确,也无法直接帮助我们估计诸如分位数之类的量。
这也是 2011 年 Gneiting 把均值分解为上下 ES 的原因($\mathbb{E}[Y]=\tau ES_{\tau}^-+(1-\tau)ES_{\tau}^+$),使得模型不必以均值为直接优化目标,而是分别按上下 ES 优化,下 ES 代表 bulk,上 ES 代表 tail。但 ES 不可单独诱导(Gneiting 2011 证明了这一点),所以不能直接作为损失函数。Fissler & Ziegel (2016) 证明了 $(VaR_{\alpha}, ES_{\alpha})$ 是联合可诱导的;文献进一步将联合可诱导性推广到三元组 $(ES^-, Q_{\tau}, ES^+)$,从而在深度学习中允许 body 和 tail 有不同 regression structure。
金融风险文献中联合估计 VaR 与 ES 的做法已较为常见,其侧重在尾部风险。而对于保险理赔数据,同时关注 bulk 与 tail 两者的结构差异,是将其拆解为上下 ES 分别建模的另一动机。
传统分位数回归同样存在局限:它仅估计分位数本身,而金融与保险应用中对尾部风险的关注往往超出单一分位数能提供的信息。
比如,VaR(Value at Risk)可能完全一样,即一定置信度下目标值超过 VaR 的概率至多为 $1-\alpha$,此为极端尾部小概率事件,但 VaR 只度量损失变量的概率分布的分位数,不能度量超过 VaR 数值后的平均尾部损失为多少(简单看,就是分布函数在 VaR 以后部分的积分)。两个损失分布即使 VaR 相同,其超过 VaR 之后的尾部损失规模也可能存在显著差异。
所以传统的分位数回归虽然可以避免:
- 条件均值作为损失
- 单一参数分布近似
但
- 无法度量尾部风险,比如 ES(Expected Shortfall)
然而 ES 本身并不适合直接作为损失函数。文献表示,ES 是不可诱导的,故无法直接将其作为目标函数执行基于梯度的优化——至少在理论上无法确保训练稳定地收敛。
为此,文献构造了三元组 $(\mathrm{ES}^-, Q_\tau, \mathrm{ES}^+)$,使得 ES 得以在深度学习框架中作为联合优化目标的一部分。
补充:分位数回归 pinball loss
可对照 OLS 的最小二乘损失加以理解。
分位数回归考虑 pinball loss,定义 $u=y-\hat{y}$
$$ \rho_\tau(u) = u \cdot (\tau - \mathbb{I}_{(u < 0)}) \tag{1} $$即
$$ L_\tau(y, \hat{y}) = \begin{cases} \tau \cdot (y - \hat{y}), & \text{如果 } y - \hat{y} \geq 0 \\ (\tau - 1) \cdot (y - \hat{y}), & \text{如果 } y - \hat{y} < 0 \end{cases} \tag{2} $$其中 $\tau$ 是目标分位数。考虑所有样本点,通常目的是最小化下面的样本平均损失
$$ \min_{\theta} \frac{1}{n} \sum_{i=1}^n L_\tau(y_i, f(x_i; \theta)) \tag{3} $$当 $\tau=0.5$,退化为 MAE 绝对损失,此时等价于让模型向着中位数最佳的方向优化,即回归线位于数据分布的正中位置。
分位数是条件分布建模的入口。
- MSE loss:对应 conditional mean,比如 OLS
- MAE loss:对应 median,可视为特殊的 pinball loss / 分位数回归
- pinball loss:对应 conditional quantile
因此,分位数回归通过选取不同损失函数,使模型能够学习条件分布的不同位置,而非仅局限于条件均值。
补充:关于 metrics
Bregman divergence 是一类由凸函数生成的广义距离,其核心用途是用来构造“正确”的损失函数。
设 $\Phi(x)$ 是严格凸函数,则 Bregman divergence 为
$$ D_{\Phi}(p, q) = \Phi(p) - \Phi(q) - \nabla \Phi(q)^{\mathrm{T}}(p - q) \tag{4} $$几何上,表示“真实函数值” 与 “切线线性近似值” 的差。注意由凸函数的性质,有 $D_{\Phi}(p, q)\geqslant0$
Bregman divergence 不一定对称,也不一定满足三角恒等式
损失函数不一定都是 Bregman divergence 的形式,但经典的损失都符合这一框架。部分较新的损失函数则未必落入 Bregman divergence 的框架之内。
一些经典例子:
- 取 $\Phi(x)=x^2$,则得到欧氏距离的平方 $D_{\Phi}(p,q)=(p-q)^2$,所以 MSE 是一种 Bregman divergence
- 取 $\Phi(x)=x\log x$,则得到 KL 散度 $D_{\Phi}(p,q)=p\log \frac{p}{q}-p+q$,所以 KL 散度是一种 Bregman divergence
补充:KL 散度不满足对称性,是对数似然比 $\log \frac{P(x)}{Q(x)}$ 在分布 $P$ 下的期望,值越大越说明两个分布 $P,Q$ 的差异越大。
当 $P$ 是真实分布、$Q$ 是模型预测分布,最小化 KL 散度等价于最大化似然,即得到 MLE。
从信息论看,KL 散度等于用错误分布 $Q$ 尝试编码真实分布 $P$ 时产生的额外信息成本。最优编码(香农熵)是知道真实分布 $P$ 并为每个事件 $x$ 分配码长 $-\log P(x)$,此时平均码长最短,为 $P$ 的熵 $H(P)$;错误编码(交叉熵)是误以为真实分布是 $Q$ 并为每个事件 $x$ 分配码长 $-\log Q(x)$,平均码长为交叉熵 $H(P,Q)$。KL 散度就是香农熵与交叉熵的平均码长的差。
KL 散度没有对称性,标准的 KL 散度(前向 KL 散度)是在真实分布 $P$ 的视角下衡量损失,倾向于让 $Q$ 覆盖 $P$ 的所有峰值,得到的 $Q$ 可能被拉宽以覆盖所有概率区域。反向 KL 散度在表达式中交换 $P,Q$ 的位置,是在近似分布 $Q$ 的视角下衡量损失,倾向于让 $Q$ 锁定某个高概率的峰值。
许多“正确”的损失函数实际上都有类似 convex potential(凸) + Bregman divergence(Bregman 散度) 的构造。除了以上两个例子,还有 Poisson mean 等。
2005 年 Banerjee 等人的经典结论:每个正则指数族分布都唯一对应一个 Bregman divergence。
| 目标 | 分布类型 (指数族成员) | 对应的 Bregman 生成函数 $\Phi$ | 诱导的 Bregman 散度 $D_\Phi$ |
|---|---|---|---|
| 均值 | 高斯分布 (方差固定) | $\Phi(\mu) = \frac{1}{2}\|\mu\|^2$ | MSE $\frac{1}{2}\|p-q\|^2$ |
| Poisson mean | 泊松分布 | $\Phi(\lambda) = \lambda \log \lambda - \lambda$ | Poisson Deviance |
| 概率分布 | 多项分布 (Categorical) | $\Phi(p) = \sum p_i \log p_i$ (负熵) | KL Divergence |
| 指数族 (通式) | 任意指数族分布 | $\Phi(\theta) = A(\theta)$ (对数配分函数) | Deviance (Log-Likelihood Ratio) |
关于可诱导 elicitable
ES 是不可诱导的,不能直接作为损失函数,不能直接应用 SGD 等优化算法,所以文献构造了一个三元组,在 Bregman divergence 的框架下,借助凸分析将 ES 纳入可优化的评分函数体系中。
对于一个关于服从分布 $F$ 的随机变量 $Y$ 的统计泛函 $T(F):F\to\mathbb{R}^k$,若存在一个 scoring function / loss function $S(x,y):\mathbb{R}^k\times\mathbb{R}\to\mathbb{R}$,使得
$$ T(F)=\arg\min_x\mathbb{E}_F[S(x,Y)] \tag{5} $$则称 $T$ 是可诱导的。
设 $\mathcal F$ 是一类概率分布(或概率测度)的集合,一个统计泛函是一个映射 $T:\mathcal{F}\to\mathcal{A}$,其中输入是概率分布 $F$,输出是某个参数空间中的值。比如,均值、方差、分位数、条件均值、ES,都是统计泛函。
如果 $S$ 还满足一些性质,比如在 $x=y$ 处连续、期望有限等,则称 $S$ 是正则的。如果在 $T(F)$ 处是全局最小值(而不是局部),则还说 $S$ 是一致的。
有些泛函不可诱导,比如方差。但期望和二阶矩联合起来是可诱导的。如果一个泛函可诱导,比如 VaR,就可以用一个一致的评分函数评估预测的质量,进而选取平均得分 / 损失最小的预测作为最优估计。
ES 不可诱导,这是一个金融统计中的经典结论。可诱导的统计量通常都是 “单点最优”的。从直觉上看,ES 依赖于尾部条件分布的整体形态,而非某个孤立点的位置(即上式中 scoring function 的参数 $x$)。
补充:可诱导是一个很好的性质,但绝不是不可诱导就不能梯度下降了,只是无法构造严格一致的损失函数,使得最小化其期望能唯一地还原出这个统计泛函。现代大模型工程的许多辅助损失都没有经过严格的可诱导证明,普遍都是从系统设计和工程角度出发说明 “我们需要构造一个这样的损失”,并通过调参确定一个合理的放缩因子,是 “启发式” 的损失。
补充:关于统计决策理论 Bayes act
对于分布 $P$ 与 scoring / loss function $L(a,y)$,定义 Bayes act 为
$$ a^{\ast}(P)=\arg\min_a\mathbb{E}_{Y\sim P}[L(a,Y)] \tag{6} $$所以 elicitable 就是 Bayes act,表示一个统计泛函是某个 loss 的 Bayes act。是否可诱导,就是指是否存在一个 scoring rule,使该 functional 成为 Bayes act。
上式表明,Bayes act 即为已知真实分布时使期望损失最小的最优行动。
举个例子,对于 MSE,act 是一个点,设 $L(a,y)=(a-y)^2$,固定 $X=x$,对于 $\displaystyle\arg\min_a\mathbb{E}[(Y-a)^2|X=x]$,展开右式得到 $\mathbb{E}[Y^2|x]-2a\mathbb{E}[Y|x]+a^2$,对 $a$ 求导得 $-2\mathbb{E}[Y|x]+2a=0$,就可以得到
$$ a^{\ast}(x)=\mathbb{E}[Y|X=x] \tag{7} $$故 MSE 的 Bayes optimal act 是条件均值。
再举个例子,对于 pinball loss,act 也是一个点,设 $L(a,y)=\rho_\tau(y-a)$,其中
$$ \rho_\tau(u)=\begin{cases} \tau u, & u\geqslant 0, \\ (\tau-1)u, & u<0 \end{cases} \tag{8} $$固定 $X=x$,对于 $\displaystyle\arg\min_a\mathbb{E}[\rho_\tau(Y-a)\mid X=x]$,展开期望得
$$ g(a)=\tau\int_a^{\infty} (y-a)p(y|x)dy + (1-\tau)\int_{-\infty}^a (a-y)p(y|x)dy \tag{9} $$对 $a$ 求导,有
$$ \begin{aligned} g'(a) &= \tau\int_a^{\infty} -p(y|x)dy + (1-\tau)\int_{-\infty}^a p(y|x)dy\\&=-\tau[1-F(a|x)]+(1-\tau)F(a|x)\\&=F(a|x)-\tau \end{aligned} \tag{10} $$令 $g'(a)=0$ 有 $F(a^*|x)=\tau$,所以
$$ a^*(x)=F^{-1}_{Y|X=x}(\tau)=Q_\tau(Y|X=x) \tag{11} $$也就证明了 pinball loss 的 Bayes optimal act 是条件 $\tau$ 分位数。
补充证明
重要引理:Osband Principle
最早于 1985 年以理论雏形出现在 Osband 的博士论文:
- Revelation Principle:如果一个泛函 $T$ 本身不可诱导(如方差 $\text{Var}(F)$),但存在一个可逆映射 $g$ 将其与另一个可诱导泛函 $U$ 关联($T = g \circ U$),那么整个向量 $(T, U)$ 或 $(U, T)$ 是可诱导的。
- Convex Level Sets(一个可诱导的重要必要条件,Gneiting 在 2011 年更系统化叙述,并且被广泛引用):若统计泛函 $T$ 是可诱导的,则其 level sets 必须是凸的。具体而言,对于任意概率分布 $F_0,F_1$ 及任意 $\lambda\in[0,1]$,若 $T(F_0)=T(F_1)=t$,则对混合分布 $F_\lambda=(1-\lambda)F_0+\lambda F_1$ 必有 $T(F_\lambda)=t$。等价地,水平集 $\{F:T(F)=t\}$ 在概率测度空间中的凸组合下必须保持封闭。
Convex Level Sets 是 elicitable 泛函的必要条件:同一最优值在分布的凸组合下必须保持稳定。
补充反例:variance 不可诱导
取两个退化分布 $F_0=\delta_1$ 与 $F_1=\delta_{-1}$,其中 $\delta_x$ 表示在点 $x$ 处的 Dirac 测度。显然,$\mathrm{Var}(F_0)=\mathrm{Var}(F_1)=0$。考虑它们的凸组合(mixture distribution)$F_{1/2}=\frac12F_0+\frac12F_1$。
此处的加法是概率测度空间中的凸组合,而非随机变量的相加,即对任意可测集合 $A$,有 $F_{1/2}(A)=\frac12F_0(A)+\frac12F_1(A)$。可见,$F_{1/2}$ 实际上就是一个满足 $P(X=1)=P(X=-1)=\frac12$ 的两点分布。
不难知道 $\mathbb E[X]=0,\ \mathbb E[X^2]=1$,故 $\mathrm{Var}(F_{1/2})=\mathbb E[X^2]-\mathbb E[X]^2=1\neq0$。于是,方差为零的 level set $\{F:\mathrm{Var}(F)=0\}$ 在凸组合下并不封闭,因此不是凸集,这与 convex level sets property 相悖,所以方差不可诱导。
补充例子:(一阶矩, 二阶矩) jointly 可诱导
众所周知,
$$ \mathrm{Var}(Y)=\mathbb{E}Y^2-(\mathbb{E}Y)^2 \tag{12} $$这是两个期望,分别是一阶矩(的平方)与二阶矩。期望都是可诱导的,我们可以直接构造出 scoring function:
$$ S\big((m,s),y\big)=(m-y)^2+(s-y^2)^2 \tag{13} $$则最优解中 $m=\mathbb{E}Y,s=\mathbb{E}Y^2$,对应的就是方差。
补充例子:VaR 可诱导
VaR 本质上是分位数,分位数都是可诱导的,如前文所述分位数回归所采用的 pinball loss,这个就是 scoring function。我们可以通过 pinball loss 诱导出 VaR:
记 pinball loss 为
$$ \rho_\alpha(r) = \begin{cases} \alpha r, & r \ge 0 \\ (\alpha-1) r, & r < 0 \end{cases} \tag{14} $$定义期望损失:
$$ R(q) = \mathbb{E}[\rho_\alpha(Y - q)] \tag{15} $$下面证明最小化 $R(q)$ 就能得到 VaR 估计。
首先求导(次微分),有
$$ \rho'_\alpha(Y-q) = \begin{cases} -\alpha, & Y > q \\ 1-\alpha, & Y < q \end{cases} \tag{16} $$交换期望与导数,
$$ \begin{aligned} R'(q) &= \mathbb{E}[\rho'_\alpha(Y-q)] \\ &= -\alpha P(Y > q) + (1-\alpha) P(Y < q) \end{aligned} \tag{17} $$代入
- $P(Y > q) = 1 - P(Y \le q)$
- $P(Y < q) = P(Y \le q) - P(Y = q)$
在连续分布下 $P(Y = q) = 0$,因此有
$$ \begin{aligned} R'(q) &= -\alpha[1 - P(Y \le q)] + (1-\alpha)P(Y \le q) \\ &= -\alpha + \alpha P(Y \le q) + P(Y \le q) - \alpha P(Y \le q) \\ &= P(Y \le q) - \alpha \end{aligned} \tag{18} $$令 $R'(q) = 0$ 得
$$ P(Y \le q) = \alpha \tag{19} $$即 $q$ 为 $Y$ 的 $\alpha$-分位数,$q = \inf\{y: F_Y(y) \ge \alpha\}$,亦即 $\text{VaR}_\alpha(Y)$ 的定义。由此可见,分位数损失 $\rho_\alpha$ 是 $\text{VaR}_\alpha$ 的一致评分函数
$$ \boxed{\text{VaR}_\alpha(Y) = \arg\min_{q} \mathbb{E}[\rho_\alpha(Y - q)]} \tag{20} $$补充:ES 不可诱导
1985 年,Osband 最早在博士论文提出可诱导;他的主要研究内容是 forecast evaluation、scoring rules、decision theory。
2011 年,Gneiting 系统整理了 elicitability 理论和证明,在机器学习和统计学习中进入主流视野。在这里,Gneiting 就证明了方差和 ES 不满足 Convex Level Sets,从而不可诱导。
2016 年 Fissler & Ziegel 在 Higher Order Elicitability and Osband’s Principle 更进一步整理了 higher-order elicitability、正式提出 Osband’s principle,指出 joint elicitability。比如,$VaR_{\alpha}$ 和 $ES_{\alpha}$ 就被证明是 jointly elicitable 的。
具体而言,ES 的尾部区域会随分布混合而发生变化,其 level sets 不满足凸性要求,类似于方差的情形。可以像方差一样给出一个具体的反例,表明 ES 不满足 Convex Level Sets。
ES 不可诱导的反例构造,参见:
反例的具体呈现,表明了 ES 的 level sets 非凸,但并未进一步导出其不可诱导 Weber (2006, Example 3.4) Distribution-invariant risk measures, information, and dynamic consistency
Weber, S. (2006), DISTRIBUTION-INVARIANT RISK MEASURES, INFORMATION, AND DYNAMIC CONSISTENCY. Mathematical Finance, 16: 419-441.
ES 不可诱导反例的正式构造 Gneiting (2011) Making and Evaluating Point Forecasts
Gneiting, Tilmann. “Making and Evaluating Point Forecasts.” Journal of the American Statistical Association 106 (2009): 746 - 762.
更广泛的反例构造 Ziegel (2013) Coherence and elicitability
Johanna F. Ziegel “COHERENCE AND ELICITABILITY.” Mathematical Finance 26 (2013): n. pag.
文献的构造
Gneiting (2011) 提出了 ES 拆分($\mathbb{E}[Y]=\tau ES_{\tau}^-+(1-\tau)ES_{\tau}^+$)并证明了 ES 不可单独诱导。Fissler & Ziegel (2016) 证明了 $VaR_{\alpha}$ 和 $ES_{\alpha}$ 的 pair 是 jointly elicitable 的。本篇文献在此基础上,将联合可诱导性进一步推广到三元组 $(ES^-, Q_{\tau}, ES^+)$,完整刻画了严格一致评分函数的类别(Theorem 2.8 & 2.9),这是文献的新理论贡献;同时设计了 monotone architecture 的深度学习神经网络使理论落地。
把 ES 拆分为 $ES^-$ 和 $ES^+$ 并分别建模的思路,来自于 2011 年 Gneiting 提出的均值分解。$ES^-$,lower ES,描述 body;$ES^+$,upper ES,描述 tail,这个才是传统意义上的 ES。
$$ Quantile:q_{\tau}(F)=F^{-1}(\tau) \tag{21} $$$$ ES_{\tau}^-(F)=\frac1{\tau}\int^{\tau}_0q_u(F)\mathrm{d}u=\mathbb{E}[Y|Y\leqslant q_{\tau}] \tag{22} $$$$ ES_{\tau}^+(F)=\frac1{1-\tau}\int^{1}_{\tau}q_u(F)\mathrm{d}u=\mathbb{E}[Y|Y\geqslant q_{\tau}] \tag{23} $$有
$$ \mathbb{E}[Y]=\tau ES_{\tau}^-+(1-\tau)ES_{\tau}^+ \tag{24} $$由此可以看出:若上下 ES 本身即可诱导,则无需与分位数构成三元组即可直接作为优化目标——这一思路是自然的,因为上下 ES 可被视为均值的分解,在考虑 bulk 与 tail 异质性的前提下构成对传统方法的推广。传统方法以 MSE 为损失函数,本质上是以条件均值作为优化目标。
文献证明了三元组 $(ES^-,Q_\tau,ES^+)$ 可诱导,分位数 $Q_\tau$ 作为 ES 的锚点。从这个意义上说,分位数界定了 tail 的范围。
联合可诱导性的证明
文献构造了一个评分函数:
$$ \begin{aligned} L(y;e^{-},v,e^{+}) &= \underbrace{ \bigl(g(y)-g(v)\bigr) (\tau-1_{\{y\le v\}}) }_{\text{generalized pinball loss}} \\ &\quad+ \underbrace{ \left\langle \nabla\Phi(e^{-},e^{+}), \begin{pmatrix} e^{-}+\frac1\tau S^{-}_\tau(y;v) \\[4pt] e^{+}-\frac1{1-\tau}S^{+}_\tau(y;v) \end{pmatrix} \right\rangle -\Phi(e^{-},e^{+}) +\Phi(y,y) }_{\text{generalized Bregman divergence}} \end{aligned} \tag{25} $$其中:
- $e^-$ 对应 lower ES
- $v$ 对应 quantile / VaR
- $e^+$ 对应 upper ES
- $\left\{\begin{aligned}&S_{\tau}^{-}(y;a) = (1_{\{y \le a\}}-\tau)a-1_{\{y \le a\}}y\\&S_{\tau}^{+}(y;a) = (1-\tau-1_{\{y>a\}})a+1_{\{y>a\}}y\end{aligned}\right.$,为 pinball 派生出来的 tail functionals,用于累积 tail 内部的损失。这是 Fissler–Ziegel 的核心构造技巧,见下文 Lemma 2.7。
最终按定义证明了
$$ (\mathrm{ES}^-_\tau,q_\tau,\mathrm{ES}^+_\tau)=\arg\min\mathbb{E}[L] \tag{26} $$关于 $\Phi$,文献给出了几个简单的选择:
(2.11)
$$ \Phi(e^{-},e^{+}) = \phi_{-}(e^{-})+\phi_{+}(e^{+}) \tag{27} $$(2.12)
$$ \Phi(e^{-},e^{+}) = \phi(\tau e^{-}+(1-\tau)e^{+})+\phi_{+}(e^{+}) \tag{28} $$(2.13)
$$ \Phi(e^{-},e^{+}) = \phi(\tau e^{-}+(1-\tau)e^{+})+\phi_{-}(e^{-}) \tag{29} $$文献还讨论了如何数据驱动地选择这些 $\phi$——利用 Tweedie 分布族的参数化 $\phi_b(y)$,通过分析残差方差-均值关系来选择 $b$ 以接近最优效率($\phi''\propto 1/\sigma^2$),详见原文 Section 3.4。
第一步:固定 v,研究关于 $(e^-,e^+)$ 的部分
固定 $v\in\mathbb Y$,将评分函数改写为
$$ \begin{aligned} L(y;e^-,v,e^+) &= \left\langle \nabla\Phi(e^-,e^+), \begin{pmatrix} e^-+\frac1\tau S^-_\tau(y;v) \\[4pt] e^+-\frac1{1-\tau}S^+_\tau(y;v) \end{pmatrix} \right\rangle \\ &\quad- \Phi(e^-,e^+) + b_v(y) \end{aligned} \tag{30} $$其中 $b_v(y)$ 是不依赖于 $(e^-,e^+)$ 的。于是,对固定 $v$,该表达式是一个 Bregman divergence。
由于 $\Phi$ 为(严格)凸函数,对 Bregman divergence $D_\Phi(p,q)=\Phi(p)-\Phi(q)-\langle\nabla\Phi(q),p-q\rangle$ 取期望:
$$ \mathbb{E}[D_\Phi(P,q)] = \mathbb{E}[\Phi(P)] - \Phi(q) - \langle\nabla\Phi(q), \mathbb{E}[P]-q\rangle \tag{31} $$对 $q$ 求梯度:
$$ \nabla_q\mathbb{E}[D_\Phi(P,q)] = -\nabla^2\Phi(q)(\mathbb{E}[P]-q) \tag{32} $$由 $\Phi$ 严格凸知 $\nabla^2\Phi(q)$ 正定,故梯度为零当且仅当 $q=\mathbb{E}[P]$。换言之,期望 Bregman divergence 的唯一极小值点就是 $P$ 的期望。
现在,第一步中评分函数的 $(e^-,e^+)$ 部分恰好可重写为 $D_\Phi(P,Q)+b_v(y)$,其中 $P=\begin{pmatrix}-\frac1\tau S^-_\tau(Y;v)\\\frac1{1-\tau}S^+_\tau(Y;v)\end{pmatrix},\;Q=\begin{pmatrix}e^-\\e^+\end{pmatrix}$。直接套用上述结论,其期望在下列点达到唯一极小值:
$$ \begin{pmatrix} e^- \\ e^+ \end{pmatrix}= \mathbb{E}_F[P] = \begin{pmatrix} -\frac1\tau \mathbb E_F[S^-_\tau(Y;v)] \\ \frac1{1-\tau}\mathbb E_F[S^+_\tau(Y;v)] \end{pmatrix} \tag{33} $$因此,对固定 $v$,评分函数对如下二维泛函严格一致:
$$ F \mapsto \left( -\frac1\tau \mathbb E_F[S^-_\tau(Y;v)], \frac1{1-\tau}\mathbb E_F[S^+_\tau(Y;v)] \right) \tag{34} $$第二步:利用 Lemma 2.7 识别 ES
Lemma 2.7
对任意具有有限一阶矩的分布 F,都有
$$ \mathrm{ES}_{\tau}^{-}(F) = -\frac{1}{\tau}\min_{v \in \mathbb{R}}\mathbb{E}_{F}[S_{\tau}^{-}(Y;v)]\qquad \,\text{and}\,\qquad \mathrm{ES}_{\tau}^{+}(F) = \frac{1}{1-\tau}\min_{v \in \mathbb{R}}\mathbb{E}_{F}[S_{\tau}^{+}(Y;v)]. \tag{35} $$
Lemma 2.7 表明 $\mathrm{ES}_{\tau}^{-}(F),\mathrm{ES}_{\tau}^{+}(F)$ 分别为 $-\frac{1}{\tau}\mathbb{E}_{F}[S_{\tau}^{-}(Y;v)],\frac{1}{1-\tau}\mathbb{E}_{F}[S_{\tau}^{+}(Y;v)]$ 的最小值,而且这些最小值在 $v=q_\tau(F)$ 处取得。因此,当 $v=q_\tau(F)$ 时,有
$$ e^-=\mathrm{ES}_\tau^-(F), \qquad e^+=\mathrm{ES}_\tau^+(F) \tag{36} $$第三步:固定 $(e^-,e^+)$,研究关于 v 的部分
固定 $(e^-,e^+)\in\mathbb Y^2$,文献将评分函数重新写为:
$$ L(y;e^-,v,e^+)=(1_{\{y\le v\}}-\tau) G_{e^-,e^+}(v)-1_{\{y\le v\}} G_{e^-,e^+}(y)+b_{e^-,e^+}(y) \tag{37} $$其中:
$$ G_{e^-,e^+}(v)=g(v)+\frac1\tau\partial_1\Phi(e^-,e^+)v-\frac1{1-\tau}\partial_2\Phi(e^-,e^+)v \tag{38} $$且 $b_{e^-,e^+}(y)$ 不依赖于 $v$。
文献指出,该表达式是一个广义分段线性损失(generalized piecewise linear loss),即 generalized pinball loss。
若 $G_{e^-,e^+}$ 为(严格)递增函数,对广义分段线性损失取期望:
$$ \mathbb{E}[L] = (F(v)-\tau)G_{e^-,e^+}(v) - \int_{-\infty}^v G_{e^-,e^+}(y)\,dF(y) + \text{const} \tag{39} $$对 $v$ 求导
$$ \frac{d}{dv}\mathbb{E}[L] = (F(v)-\tau)\,G_{e^-,e^+}'(v) \tag{40} $$由 $G_{e^-,e^+}$ 严格递增知 $G_{e^-,e^+}'(v)>0$,故导数为零当且仅当 $F(v)=\tau$,即期望在 $v=q_\tau(F)$ 处达到唯一极小值。这正是 pinball loss 在 $\tau=0.5$ 退化为 MAE(极小值点为中位数)的一般推广。
第四步:联合最优化(conditionally separable)
综上:
- 固定 $v$ 时, 关于 $(e^-,e^+)$ 的优化得到:
- 固定 $(e^-,e^+)$ 时, 关于 $v$ 的优化得到:
因此
$$ (\mathrm{ES}_\tau^-,q_\tau,\mathrm{ES}_\tau^+)=\arg\min_{(e^-,v,e^+)}\mathbb E_F[L(Y;e^-,v,e^+)] \tag{43} $$故 $(\mathrm{ES}_\tau^-,q_\tau,\mathrm{ES}_\tau^+)$ 是联合可诱导的(jointly elicitable)。
这属于 risk-sensitive deep learning 与 distributional learning 的大方向:神经网络不再仅学习条件均值,而是在学习变量相关性的同时,进一步捕捉内部分布结构特征(如分位数、尾部风险、分布形状等),可归入 multi-output constrained distribution learning 的范畴。
分位数深度回归的工程设计
证明了 $(\mathrm{ES}_\tau^-,q_\tau,\mathrm{ES}_\tau^+)$ 是联合可诱导的后,就可以使用神经网络以三者为目标进行优化了。
很多时候,我们关心多个分位数。如果分别训练 $Q_{0.5}$ 和 $Q_{0.9}$,神经网络在独立训练时可能出现 $Q_{0.5}$ 的估计值大于 $Q_{0.9}$ 的情形。这在逻辑上是不可接受的,违背了分位数单调性的基本约束。为此,当同时训练多个分位数输出时,锚定其中一个,比如同时训练 $Q_{0.5}$ 和 $\Delta x$ 并令 $\Delta x>0,Q_{0.9}=Q_{0.5}+\Delta x$,这样就保证单调性了。这样从结构上就可以确保单调性的成立。
也可以用乘而不是加的方式,训练 $[0,1]$ 范围内的放缩因子而不是非负的 $\Delta x$,也可行。
范围、非负的限制,通过常规的激活函数就可以实现。
为了符合 Backbone-Head 架构,文献提出让 $x$ 通过神经网络映射到 $z$,再将 $z$ 作为线性回归(用上文推导出的损失)的参数计算 $y=\beta^Tz$ 以学习 ES,而不是直接用神经网络将 $z$ 映射至 $y$。
这一设计本质上属于表征学习(Representation Learning)的范式。
实验说明
半参数性质:文献方法不完整指定条件分布,只估计 splicing point(条件分位数)和上下条件均值,属于 semi-parametric 方法。
与两步估计法的对比:Barendse (2020) 的两步法(先估分位数,再估 ES)在三个 component 共享参数时会出问题;本文一步联合 SGD 估计更稳定,不需要 EM 算法。
实证结果(瑞士意外险数据,$n=241193$)
深度多重分位数回归($\tau \in \{10\%,50\%,90\%\}$):
- 多输出网络(加性/乘性)vs 单独分位数估计:参数减少 3 倍(834 vs 2436),out-of-sample pinball loss 相当
- 分位数交叉:当 $\tau$ 接近时(如 20% vs 30%),单独估计出现 161/26799 次违反;多输出架构通过构造保证单调性
深度复合三元组回归($\tau=90\%$):
- vs Gamma GLM:RMSEP 略优(5894 vs 5909);在尾部 auto-calibration 远好于 Gamma 模型(Gamma 在大额赔案上系统性低估)
- VPI 分析:不同协变量对 lower ES 和 upper ES 的重要性排序不同(如 labor sector 对 lower ES 不显著,对 upper ES 显著),验证了 body 和 tail 需要不同 regression structure 的动机
补充:Proper Scoring Rule 与 full probabilistic learning
将 elicitable 定义中的 scoring function / loss function 替换为 scoring rule,即得到 Proper Scoring Rule 的框架——这是目前更受关注的研究方向。统计泛函关注某个特征下的量化数字,scoring rule 直接对比分布的偏差。如果 scoring rule 还唯一,则称它为 Strictly 的。
本质上是从点估计到分布预测的范式跃迁。
这篇文献依然是在统计泛函上做文章,最终使得上下 ES 与分位数一起可被联合诱导。
更具潜力的方向是直接学习概率分布层面的评分规则,而不是学习某个统计泛函下的损失。比如 MSE 作为 loss 是学习条件均值 $\mathbb{E}[Y|X=x]$,更新的研究是学习 $p(y|x)$、$P(Y\leqslant y|X=x)$。因为如果能学习到分布,那么所有的 risk functional,不管是条件均值还是 ES,都能被导出了。
我在统计建模校赛中用的 GAMLSS 方法就是向这个方向努力的经典成果,不止学习、预测均值,还同时关心方差、偏度、峰度等形状参数。
例如上述文献即探索基于扩散原理的概率学习(probabilistic learning)。