Test Page

View mindmap of this page Edit in Notion By Jinchao Li

About 662 words Posted May 27, 2026

Test markdown rendering.

1.1 偶然不确定性

偶然不确定性（Aleatoric Uncertainty）来源于数据本身的内在随机性，反映的是观测过程中不可消除的噪声。其数学定义为预测分布的熵在数据生成过程上的期望：

$\mathcal{U}{\text{alea}} = \mathbb{E}{p(x)}\left[ H\left[ p(y \mid x, \theta) \right] \right]$

偶然不确定性具有不可约性（irreducibility）：无论收集多少额外数据，只要数据生成过程本身包含随机性，这种不确定性就无法消除。例如，在医学图像标注中，不同专家对同一病灶的判断差异就属于偶然不确定性。

偶然不确定性进一步分为两类：同方差不确定性（homoscedastic）指噪声水平与输入无关，是任务层面的常数；异方差不确定性（heteroscedastic）指噪声水平随输入变化，是输入相关的函数 $\sigma^2(x)$，在实际场景中更为普遍。

1.2 认知不确定性

认知不确定性（Epistemic Uncertainty）来源于模型参数的不确定性，反映的是由于训练数据有限而导致的知识缺失。其数学定义为预测分布在参数后验上的方差：

$\mathcal{U}{\text{epis}} = \mathbb{V}{p(\theta \mid \mathcal{D})}\left[ \mathbb{E}\left[ p(y \mid x, \theta) \right] \right]$

认知不确定性具有可约性（reducibility）：给定足够多的训练数据，参数后验 $p(\theta \mid \mathcal{D})$ 将收缩至一个点，认知不确定性趋近于零。这一性质使得认知不确定性与主动学习（Active Learning）天然契合——模型在认知不确定性高的区域采集新样本，可以最高效地压缩参数不确定性 3。

2.2 异方差回归

对于回归任务，最自然的出发点是假设 $y \mid x \sim \mathcal{N}(\mu_\theta(x), \sigma^2\theta(x))$，其中均值 $\mu\theta(x)$ 和方差 $\sigma^2_\theta(x)$ 均为网络的输出。训练目标为最大化对数似然，等价于最小化以下损失函数 2：

$\mathcal{L}(\theta) = \frac{1}{N} \sum_{i=1}^{N} \left[ \frac{(y_i - \mu_\theta(x_i))^2}{2\sigma^2\theta(x_i)} + \frac{1}{2}\log \sigma^2\theta(x_i) \right]$

该损失函数具有直观的信息论解释：第一项是以预测方差为权重的加权均方误差，当模型对某个样本预测不确定（$\sigma^2$ 大）时，该样本对梯度的贡献被自动降低；第二项是正则化项，防止模型通过无限增大 $\sigma^2$ 来规避第一项的惩罚。这种机制使得模型能够自适应地对噪声较大的样本降低权重，从而对异常值具有天然的鲁棒性。

Blogging demo

This post is licensed under CC BY 4.0 by the author.