Test Page

Test Page

Test markdown rendering.

1.1 偶然不确定性

偶然不确定性(Aleatoric Uncertainty)来源于数据本身的内在随机性,反映的是观测过程中不可消除的噪声。其数学定义为预测分布的熵在数据生成过程上的期望:

$\mathcal{U}{\text{alea}} = \mathbb{E}{p(x)}\left[ H\left[ p(y \mid x, \theta) \right] \right]$

偶然不确定性具有不可约性(irreducibility):无论收集多少额外数据,只要数据生成过程本身包含随机性,这种不确定性就无法消除。例如,在医学图像标注中,不同专家对同一病灶的判断差异就属于偶然不确定性。

偶然不确定性进一步分为两类:同方差不确定性(homoscedastic)指噪声水平与输入无关,是任务层面的常数;异方差不确定性(heteroscedastic)指噪声水平随输入变化,是输入相关的函数 $\sigma^2(x)$,在实际场景中更为普遍。

1.2 认知不确定性

认知不确定性(Epistemic Uncertainty)来源于模型参数的不确定性,反映的是由于训练数据有限而导致的知识缺失。其数学定义为预测分布在参数后验上的方差:

$\mathcal{U}{\text{epis}} = \mathbb{V}{p(\theta \mid \mathcal{D})}\left[ \mathbb{E}\left[ p(y \mid x, \theta) \right] \right]$

认知不确定性具有可约性(reducibility):给定足够多的训练数据,参数后验 $p(\theta \mid \mathcal{D})$ 将收缩至一个点,认知不确定性趋近于零。这一性质使得认知不确定性与主动学习(Active Learning)天然契合——模型在认知不确定性高的区域采集新样本,可以最高效地压缩参数不确定性 3

2.2 异方差回归

对于回归任务,最自然的出发点是假设 $y \mid x \sim \mathcal{N}(\mu_\theta(x), \sigma^2\theta(x))$,其中均值 $\mu\theta(x)$ 和方差 $\sigma^2_\theta(x)$ 均为网络的输出。训练目标为最大化对数似然,等价于最小化以下损失函数 2

$\mathcal{L}(\theta) = \frac{1}{N} \sum_{i=1}^{N} \left[ \frac{(y_i - \mu_\theta(x_i))^2}{2\sigma^2\theta(x_i)} + \frac{1}{2}\log \sigma^2\theta(x_i) \right]$

该损失函数具有直观的信息论解释:第一项是以预测方差为权重的加权均方误差,当模型对某个样本预测不确定($\sigma^2$ 大)时,该样本对梯度的贡献被自动降低;第二项是正则化项,防止模型通过无限增大 $\sigma^2$ 来规避第一项的惩罚。这种机制使得模型能够自适应地对噪声较大的样本降低权重,从而对异常值具有天然的鲁棒性。

This post is licensed under CC BY 4.0 by the author.