深度学习中的不确定性估计
本文系统性回顾了不确定性估计的主流技术路线,涵盖基于似然的参数化方法、贝叶斯神经网络、证据深度学习以及保形预测。通过引入“先验放置位置”这一核心分类维度,本文深入探讨了各类方法在捕获偶然/认知不确定性上的理论动机、计算代价与固有局限,并提供了详尽的横向对比与场景适用指南。
引言
当一个自动驾驶系统将雨天的路面积水误判为障碍物时,或当一个医疗影像模型以 97% 的置信度给出错误诊断时,问题的根源往往不在于模型”不够聪明”,而在于模型无法意识到自己”不知道”。这正是不确定性估计(Uncertainty Estimation)在现代深度学习中的核心价值所在:使模型不仅能够给出预测,还能够对预测的可靠程度进行量化。
传统的深度神经网络通过 softmax 层输出类别概率,但这种概率本质上是对训练分布下的条件概率 \(p(y\mid x, \hat{\theta})\) 的点估计,其中 \(\hat{\theta}\) 是通过最大化似然得到的固定参数。这种范式存在两个根本性的缺陷:其一,它将参数的不确定性完全忽略;其二,softmax 的输出天然倾向于过度自信,即便面对从未见过的输入,模型也可能给出接近 1.0 的置信度 1。
本文系统梳理深度学习中不确定性估计的主要技术范式,包括基于似然的参数化方法、贝叶斯神经网络(含变分推断、MC Dropout、深度集成、拉普拉斯近似等)、证据深度学习,以及保形预测。对于每种范式,本文着重分析其背后的数学动机、核心假设与方法局限,并在最后进行系统性的横向对比。
在进入各方法的具体讨论之前,有必要先明确一个贯穿全文的核心组织维度:先验放置的位置(Where to place the prior)。这三大范式在本质上的区别,正在于它们将先验知识注入模型的不同层次——似然估计将先验放置在数据的生成分布上(即对 \(p(y\mid x)\) 的形式做假设);贝叶斯神经网络将先验放置在模型权重上(即对 \(p(\theta)\) 做假设);而证据神经网络则将先验放置在似然函数本身上(即对 \(p(y\mid x,\theta)\) 的参数分布做假设,形成超先验)。这一区别不仅决定了各方法能够捕获的不确定性类型,也从根本上决定了其计算复杂度与推断方式。
一、不确定性的本质:偶然与认知
在深度学习的语境下,预测不确定性通常被分解为两个正交的来源,这一分类框架由 Kendall 与 Gal 2 在计算机视觉任务中系统化。
1.1 偶然不确定性
偶然不确定性(Aleatoric Uncertainty)来源于数据本身的内在随机性,反映的是观测过程中不可消除的噪声。其数学定义为预测分布的熵在数据生成过程上的期望:
\[\mathcal{U}{\text{alea}} = \mathbb{E}{p(x)}\left[ H\left[ p(y \mid x, \theta) \right] \right]\]偶然不确定性具有不可约性(irreducibility):无论收集多少额外数据,只要数据生成过程本身包含随机性,这种不确定性就无法消除。例如,在医学图像标注中,不同专家对同一病灶的判断差异就属于偶然不确定性。
偶然不确定性进一步分为两类:同方差不确定性(homoscedastic)指噪声水平与输入无关,是任务层面的常数;异方差不确定性(heteroscedastic)指噪声水平随输入变化,是输入相关的函数 \(\sigma^2(x)\),在实际场景中更为普遍。
1.2 认知不确定性
认知不确定性(Epistemic Uncertainty)来源于模型参数的不确定性,反映的是由于训练数据有限而导致的知识缺失。其数学定义为预测分布在参数后验上的方差:
\[\mathcal{U}{\text{epis}} = \mathbb{V}{p(\theta \mid \mathcal{D})}\left[ \mathbb{E}\left[ p(y \mid x, \theta) \right] \right]\]认知不确定性具有可约性(reducibility):给定足够多的训练数据,参数后验 \(p(\theta \mid \mathcal{D})\) 将收缩至一个点,认知不确定性趋近于零。这一性质使得认知不确定性与主动学习(Active Learning)天然契合——模型在认知不确定性高的区域采集新样本,可以最高效地压缩参数不确定性 3。
1.3 分布外不确定性
除上述两类之外,当测试样本来自训练分布之外(Out-of-Distribution, OOD)时,模型面临的是分布外不确定性。这类不确定性与认知不确定性密切相关,但在概念上有所区别:OOD 不确定性强调的是输入空间中的”未知领域”,而非参数空间的不确定性。Prior Networks 4 将这三类不确定性统一在 Dirichlet 分布的框架下进行分解,是目前最为精细的不确定性分类体系之一。
二、基于似然的不确定性估计
先验放置的位置:数据的生成分布 \(p(y \mid x)\)。权重 \(\theta\) 保持确定,不确定性完全由输出分布的参数化形式承载。
2.1 动机:从点估计到分布估计
标准的监督学习将预测问题表述为:给定输入 \(x\),找到使损失函数最小的参数 \(\hat{\theta}\),并输出点预测 \(\hat{y} = f_{\hat{\theta}}(x)\)。这一范式的根本局限在于,它将预测的不确定性完全压缩进一个标量,丢失了关于预测分布形状的所有信息。
基于似然的方法通过将神经网络的输出解释为条件概率分布的参数,将点估计问题转化为密度估计问题。其核心假设是:对于给定输入 \(x\),目标变量 \(y\) 服从某个参数化分布族,网络的任务是预测该分布的参数。
2.2 异方差回归
对于回归任务,最自然的出发点是假设 \(y \mid x \sim \mathcal{N}(\mu_\theta(x), \sigma^2_\theta(x))\),其中均值 \(\mu_\theta(x)\) 和方差 \(\sigma^2_\theta(x)\) 均为网络的输出。训练目标为最大化对数似然,等价于最小化以下损失函数 2:
\[\mathcal{L}(\theta) = \frac{1}{N} \sum_{i=1}^{N} \left[ \frac{(y_i - \mu_\theta(x_i))^2}{2\sigma^2_\theta(x_i)} + \frac{1}{2}\log \sigma^2_\theta(x_i) \right]\]该损失函数具有直观的信息论解释:第一项是以预测方差为权重的加权均方误差,当模型对某个样本预测不确定(\(\sigma^2\) 大)时,该样本对梯度的贡献被自动降低;第二项是正则化项,防止模型通过无限增大 \(\sigma^2\) 来规避第一项的惩罚。这种机制使得模型能够自适应地对噪声较大的样本降低权重,从而对异常值具有天然的鲁棒性。
在实现上,网络通常设计为双头结构:均值头输出 \(\mu(x)\),对数方差头输出 \(\log \sigma^2(x)\)(取对数以保证方差非负)。这种方法捕获的是输入相关的偶然不确定性,但无法量化认知不确定性。
2.3 混合密度网络
单高斯假设在面对一对多映射(one-to-many mapping)时存在根本性局限:当同一输入 \(x\) 对应多个合理输出时,单高斯模型只能给出一个模糊的”平均”预测,而无法捕捉分布的多峰结构。Bishop 5 提出的混合密度网络(Mixture Density Network, MDN)通过将输出分布建模为高斯混合模型来解决这一问题:
\[p(y \mid x) = \sum_{k=1}^{K} \pi_k(x) \cdot \mathcal{N}(y; \mu_k(x), \sigma_k^2(x))\]其中 \(\pi_k(x)\)、\(\mu_k(x)\)、\(\sigma_k^2(x)\) 分别为第 \(k\) 个混合成分的权重、均值和方差,均由网络输出。MDN 的训练目标同样是最大化对数似然,但由于混合模型的存在,梯度计算涉及对混合成分的软分配,在训练初期容易出现数值不稳定。混合密度网络在机器人逆运动学、手写体生成等具有固有多义性的任务中表现出色 5。
2.4 归一化流
归一化流(Normalizing Flows)通过学习一系列可逆变换 \(f = f_L \circ \cdots \circ f_1\),将简单的基础分布(如标准正态)变换为复杂的目标分布,同时通过变量替换公式精确计算对数似然:
\[\log p(y) = \log p_0(f^{-1}(y)) + \sum_{l=1}^{L} \log \left\vert \det \frac{\partial f_l^{-1}}{\partial z_{l-1}} \right\vert\]归一化流在不确定性估计中的应用主要体现在两个方向:一是作为后验分布的近似族,替代均场高斯以获得更丰富的后验表达;二是通过学习输入空间的密度 \(p(x)\) 来检测 OOD 样本,但后者存在”高似然 OOD”的已知问题 6。
三、贝叶斯神经网络:权重上的分布
先验放置的位置:模型权重 \(p(\theta)\)。权重被视为随机变量而非确定常数,不确定性通过对权重后验 \(p(\theta \mid \mathcal{D})\) 的积分传播到预测中。这是三大范式中唯一将权重视为随机的范式,因而具备捕获认知不确定性的理论基础,但代价是推断时需要对权重后验进行采样或近似。
3.1 贝叶斯推断的基本框架
基于似然的方法通过最大化似然得到点估计参数 \(\hat{\theta}\),从根本上忽略了参数空间的不确定性。贝叶斯神经网络(Bayesian Neural Networks, BNN)的核心动机在于:将参数 \(\theta\) 视为随机变量,通过贝叶斯定理计算参数的后验分布:
\[p(\theta \mid \mathcal{D}) = \frac{p(\mathcal{D} \mid \theta) \cdot p(\theta)}{p(\mathcal{D})}\]其中 \(p(\theta)\) 为先验分布,\(p(\mathcal{D} \mid \theta)\) 为似然函数,\(p(\mathcal{D}) = \int p(\mathcal{D} \mid \theta) p(\theta) d\theta\) 为边际似然(证据)。
在获得后验分布后,预测通过后验预测分布(Posterior Predictive Distribution)完成:
\[p(y \mid x, \mathcal{D}) = \int p(y \mid x, \theta) \cdot p(\theta \mid \mathcal{D}) \, d\theta\]这一积分将参数的不确定性传播到预测中,从而量化认知不确定性。然而,对于参数量达到数百万甚至数十亿的现代神经网络,精确计算后验分布在计算上是不可行的,这催生了一系列近似推断方法。
3.2 变分推断与 ELBO
变分推断(Variational Inference)通过引入参数化的近似分布 \(q_\phi(\theta)\)(通常取均场高斯),将后验推断转化为优化问题:最小化 \(q_\phi(\theta)\) 与真实后验 \(p(\theta \mid \mathcal{D})\) 之间的 KL 散度。由于真实后验不可知,等价地最大化证据下界(Evidence Lower Bound, ELBO):
\[\mathcal{L}(\phi) = \underbrace{\mathbb{E}{q\phi(\theta)}\left[\log p(\mathcal{D} \mid \theta)\right]}_{\text{期望对数似然}} - \underbrace{D{\text{KL}}\left[q_\phi(\theta) \Vert p(\theta)\right]}_{\text{复杂度惩罚}}\]ELBO 的两项具有明确的信息论含义:第一项鼓励近似后验对训练数据给出高似然;第二项惩罚近似后验偏离先验的程度,起到正则化作用。Blundell 等人 7 提出的 Bayes by Backprop 通过重参数化技巧(reparameterization trick)实现了对 ELBO 的无偏梯度估计,使得变分 BNN 可以通过标准反向传播训练。
均场近似假设所有参数相互独立 \(q_\phi(\theta) = \prod_i q_\phi(\theta_i)\),这一假设虽然在计算上便利,但在参数相关性强的情况下会导致后验近似质量下降,并可能产生”中间不确定性”(in-between uncertainty)问题 8——即在训练数据点之间的区域,均场近似给出的不确定性估计过低。
3.3 MC Dropout:贝叶斯近似的实用化
Gal 与 Ghahramani 9 的工作揭示了一个深刻的理论联系:在神经网络的每一层应用 Dropout 进行训练,等价于对深度高斯过程的变分推断。具体地,Dropout 训练的网络可以被解释为对权重矩阵施加伯努利随机变量的乘积,其变分分布形式为:
\[q_\phi(\theta) = \prod_l \text{diag}(\mathbf{z}_l) \cdot \mathbf{W}_l, \quad \mathbf{z}_l \sim \text{Bernoulli}(1-p)\]基于这一理论,MC Dropout 在测试时保持 Dropout 激活,通过 \(T\) 次随机前向传播获得预测样本集 \(\{\hat{y}_1, \ldots, \hat{y}_T\}\),并以样本均值和方差作为预测及其不确定性的估计:
\[\mathbb{E}[y] \approx \frac{1}{T}\sum_{t=1}^{T} \hat{y}t, \qquad \text{Var}[y] \approx \frac{1}{T}\sum{t=1}^{T} \hat{y}t^2 - \left(\frac{1}{T}\sum{t=1}^{T} \hat{y}_t\right)^2\]MC Dropout 的主要优势在于实现极为简便——对于任何已经使用 Dropout 的模型,无需修改训练过程即可获得不确定性估计。然而,其局限性同样显著:推断代价增加 \(T\) 倍;Dropout 概率 \(p\) 的选择对不确定性质量影响显著但缺乏原则性指导;Gal 本人也指出,伯努利近似族的表达能力有限,可能低估真实后验的复杂度 9。
3.4 深度集成:简单有效的基线
Lakshminarayanan 等人 10 提出的深度集成(Deep Ensembles)方法以其简洁性和强大的实验性能成为不确定性估计领域的重要基线。其核心思想是训练 \(M\) 个独立随机初始化的网络,并将它们的预测进行混合:
\[p(y \mid x, \mathcal{D}) \approx \frac{1}{M} \sum_{m=1}^{M} p(y \mid x, \theta_m)\]对于回归任务,每个成员网络预测一个高斯分布 \((\mu_m, \sigma_m^2)\),集成的预测均值和方差为:
\[\mu^* = \frac{1}{M}\sum_m \mu_m, \qquad \sigma^2 = \frac{1}{M}\sum_m (\sigma_m^2 + \mu_m^2) - \mu^2\]深度集成的不确定性来源于两个层面:成员网络内部的预测方差(对应偶然不确定性)和成员网络之间的预测分歧(对应认知不确定性)。Fort 等人 11 从损失景观的视角解释了集成的有效性:随机初始化使得不同成员网络收敛到损失函数的不同盆地(basin),从而探索了参数空间的不同区域,产生了真正多样化的预测。这一解释也揭示了深度集成与贝叶斯方法的本质联系:集成近似了参数后验的多模态结构,而变分推断的均场近似则只能捕获单模态后验。
深度集成的主要缺陷在于计算和存储代价随成员数量线性增长,在资源受限的部署场景中难以应用。
3.5 拉普拉斯近似:后处理式贝叶斯化
拉普拉斯近似(Laplace Approximation)是一种经典的贝叶斯近似方法,其核心思想是在 MAP 估计 \(\hat{\theta}\) 附近对对数后验进行二阶泰勒展开,从而将后验近似为高斯分布:
\[p(\theta \mid \mathcal{D}) \approx \mathcal{N}(\theta; \hat{\theta}, \mathbf{H}^{-1})\]其中 \(\mathbf{H} = -\nabla^2_\theta \log p(\theta \mid \mathcal{D})\mid _{\hat{\theta}}\) 为对数后验在 MAP 处的 Hessian 矩阵(负值)。
拉普拉斯近似的关键优势在于其后处理性质:可以对任意预训练的确定性网络进行贝叶斯化,无需修改训练过程。Daxberger 等人 12 的 Laplace Redux 工作通过引入子网络拉普拉斯(subnetwork Laplace)和线性化拉普拉斯(linearized Laplace)等技术,将该方法扩展到现代大规模网络,并提供了易用的开源实现库。其主要局限在于:Hessian 矩阵的精确计算代价为 \(O(\mid \theta\mid ^2)\),在实践中通常需要使用 Kronecker 分解(KFAC)或对角近似;此外,高斯近似仅在 MAP 附近局部有效,对于多模态后验可能严重失真。
3.6 SWAG:随机梯度轨迹上的高斯近似
SWAG(Stochastic Weight Averaging Gaussian)13 利用 SGD 训练轨迹的统计信息来近似参数后验。其核心观察是:SGD 在收敛后不会停留在一个点,而是在损失函数的平坦区域内随机游走,这一游走轨迹包含了关于参数不确定性的信息。SWAG 通过收集 SGD 迭代过程中的权重快照,估计权重分布的均值和低秩协方差矩阵,并通过从该分布中采样来进行贝叶斯模型平均。SWAG 的计算代价较低,且无需修改训练过程,是一种实用的后处理贝叶斯化方法。
四、证据深度学习:分布上的分布
先验放置的位置:似然函数本身 \(p(y \mid x, \theta)\) 的参数分布。权重 \(\theta\) 保持确定,但网络输出的是似然分布的超参数(如 Dirichlet 的 \(\boldsymbol{\alpha}\) 或 NIG 的 \(\gamma, \nu, \alpha, \beta\)),从而对输出分布本身建立了一层超先验。这使得证据神经网络在权重确定的前提下,仍能通过单次前向传播同时输出预测均值与不确定性。
4.1 动机:超越参数不确定性
贝叶斯神经网络通过对参数建立分布来量化认知不确定性,但这一路径存在两个根本性的计算瓶颈:精确后验推断不可行,以及推断时需要多次前向传播。证据深度学习(Evidential Deep Learning, EDL)提供了一条不同的路径:不对参数建立分布,而是对预测分布本身建立分布,即所谓的”分布上的分布”(distribution over distributions)或超先验(hyperprior)。
这一思路的理论根基来自两个方向:主观逻辑(Subjective Logic)14 将信念质量(belief mass)和不确定性质量(uncertainty mass)统一在一个框架下,允许对”不知道”进行显式建模;Dempster-Shafer 证据理论则提供了在不完整信息下进行推理的数学工具。EDL 的核心洞见是:神经网络的输出不应是类别概率,而应是证据(evidence)——支持每个类别的观测数量的代理量,从而将预测问题转化为证据积累问题。
4.2 分类任务:Dirichlet 先验网络
Sensoy 等人 15 提出的 EDL 分类框架将 Dirichlet 分布作为类别概率的先验。对于 \(K\) 类分类问题,网络输出 \(K\) 维证据向量 \(\mathbf{e} = (e_1, \ldots, e_K)\)(通过 ReLU 或 softplus 保证非负),Dirichlet 分布的参数为 \(\alpha_k = e_k + 1\),总证据量 \(S = \sum_k \alpha_k\)。
在此框架下,不确定性可以进行精细的三元分解:
\[\underbrace{H\left[\mathbb{E}{p(\mathbf{p}\mid \boldsymbol{\alpha})}[\mathbf{p}]\right]}_{\text{总不确定性}} = \underbrace{\mathbb{E}{p(\mathbf{p}\mid \boldsymbol{\alpha})}\left[H[\mathbf{p}]\right]}_{\text{偶然不确定性(期望熵)}} + \underbrace{I(\mathbf{p}; \boldsymbol{\alpha})}_{\text{认知不确定性(互信息)}}\]此外,空缺度(Vacuity)\(u = K/S\) 直接量化了证据的缺乏程度:当模型对某个输入缺乏证据时(如 OOD 样本),\(S\) 较小,空缺度接近 1;当模型积累了大量证据时,\(S\) 较大,空缺度趋近于 0。这一指标对 OOD 检测具有直接的可解释性。
EDL 的训练损失函数由两部分构成。设 \(\tilde{\boldsymbol{\alpha}} = \mathbf{y} + (1 - \mathbf{y}) \odot \boldsymbol{\alpha}\)(去除正确类别的证据后的参数),则:
\[\mathcal{L} = \sum_{i=1}^{N} \left[ \mathbb{E}_{q(\mathbf{p}\mid \boldsymbol{\alpha}_i)}\left[\text{CE}(\mathbf{y}i, \mathbf{p})\right] + \lambda \cdot D{\text{KL}}\left[\text{Dir}(\tilde{\boldsymbol{\alpha}}_i) \Vert \text{Dir}(\mathbf{1})\right] \right]\]第一项鼓励模型对正确类别积累证据;第二项通过 KL 散度惩罚错误类别上的多余证据,使模型在预测错误时主动收缩证据,从而产生合理的不确定性。
4.3 先验网络与后验网络的演进
Malinin 与 Gales 4 提出的先验网络(Prior Networks, PN)与 EDL 共享 Dirichlet 参数化框架,但训练策略有所不同。PN 通过监督学习直接拟合目标 Dirichlet 分布:对于分布内(in-distribution)样本,目标为高浓度 Dirichlet(类别概率集中);对于分布外样本,目标为低浓度 Dirichlet(类别概率分散)。这一方法将三类不确定性(分布不确定性、数据不确定性、模型不确定性)进行了更为精细的分离,但其主要局限在于需要 OOD 训练样本,而在实际场景中,OOD 分布往往是未知的。
Charpentier 等人 16 提出的后验网络(Posterior Networks, PostNet)通过引入归一化流解决了这一问题。PostNet 的核心思想是:利用归一化流估计输入空间中的密度 \(p(z)\)(其中 \(z = f(x)\) 为特征表示),并将密度值作为伪计数(pseudo-count)来更新 Dirichlet 先验:
\[\boldsymbol{\alpha}(x) = \boldsymbol{\alpha}0 + N \cdot p_z(f(x)) \cdot \mathbf{e}{y}\]这一机制具有直观的贝叶斯解释:密度高的区域(接近训练数据)对应大量伪计数,后验 Dirichlet 分布集中;密度低的区域(远离训练数据,即 OOD 区域)对应少量伪计数,后验 Dirichlet 分布平坦,空缺度高。PostNet 无需 OOD 训练样本,且具有严格的贝叶斯解释,是证据学习方向的重要进展。
4.4 回归任务:证据回归
Amini 等人 17 将证据学习的思想扩展到回归任务,提出深度证据回归(Deep Evidential Regression, DER)。其核心是在高斯似然 \(p(y \mid \mu, \sigma^2) = \mathcal{N}(y; \mu, \sigma^2)\) 上放置共轭先验——正态逆伽马分布(Normal-Inverse-Gamma, NIG):
\[\mu \sim \mathcal{N}(\gamma, \sigma^2/\nu), \qquad \sigma^2 \sim \Gamma^{-1}(\alpha, \beta)\]网络输出 NIG 分布的四个超参数 \((\gamma, \nu, \alpha, \beta)\),其中 \(\gamma\) 为均值的先验均值,\(\nu\) 为均值的先验精度,\(\alpha\) 和 \(\beta\) 控制方差的先验分布。在此框架下,偶然不确定性和认知不确定性可以从超参数中直接解析:
\[\underbrace{\mathbb{E}[\sigma^2] = \frac{\beta}{\alpha - 1}}_{\text{偶然不确定性}}, \qquad \underbrace{\text{Var}[\mu] = \frac{\beta}{\nu(\alpha-1)}}_{\text{认知不确定性}}\]认知不确定性与 \(\nu\) 成反比:\(\nu\) 可以解释为”虚拟观测数”(virtual evidence count),\(\nu\) 越大表示模型对均值的估计越确定。
然而,DER 受到了严肃的理论质疑。Meinert 等人 18 指出,DER 的损失函数并非严格的贝叶斯推断,而是一种启发式构造:其正则化项的形式缺乏严格的概率论推导,且在某些情况下会导致不合理的不确定性估计(如在训练数据密集区域出现高不确定性)。这一批评促使了后续工作对 DER 的损失函数进行修正,如 Ye 等人 19 提出的不确定性正则化证据回归(UR-ERN)。
五、保形预测:统计保证的不确定性量化
前述所有方法均属于模型依赖的不确定性估计:它们的有效性依赖于模型假设(如高斯似然、变分近似族的选择等)的正确性,且通常缺乏严格的统计保证。保形预测(Conformal Prediction, CP)提供了一种完全不同的视角:在无分布假设的条件下,为任意预测模型构造具有严格覆盖率保证的预测集合。
保形预测的核心保证为:对于任意置信水平 \(1-\alpha\),构造的预测集合 \(C(x)\) 满足:
\[P(y \in C(x)) \geq 1 - \alpha\]这一保证在数据可交换性(exchangeability)的弱假设下成立,无需对数据分布或模型结构做任何额外假设 20。
在实现上,分割保形预测(Split Conformal Prediction)利用校准集 \(\{(x_i, y_i)\}*{i=1}^{n}\) 计算非一致性分数(nonconformity score)\(s_i = s(x_i, y_i)\)(如残差绝对值),并以分位数 \(\hat{q} = \text{Quantile}*{(1-\alpha)(1+1/n)}(\{s_i\})\) 构造预测区间 \(C(x) = \{\hat{y} : s(x, \hat{y}) \leq \hat{q}\}\)。
保形预测的局限在于:它提供的是边际覆盖率(marginal coverage)保证,而非条件覆盖率(conditional coverage);预测集合的大小(即不确定性的大小)取决于底层模型的质量,保形预测本身不改善模型的预测精度;此外,它不直接分离偶然与认知不确定性。保形预测与深度学习方法的结合是当前活跃的研究方向,例如将 MC Dropout 或集成方法的输出作为非一致性分数的基础。
六、横向对比分析
6.1 多维度方法对比
下表首先展示三大范式在“先验放置位置”和“权重是否随机”两个核心维度上的本质区别,随后进行具体方法的全面对比。
三大范式的核心区别
| 范式 | 先验放在 | 权重是 | 快速(无采样) | 能捕获认知不确定性 |
|---|---|---|---|---|
| 似然估计 | 数据的生成分布 \(p(y\mid x)\) | 确定的 | ✓ | ✗ |
| 贝叶斯神经网络 | 模型权重 \(p(\theta)\) | 随机的 | ✗ | ✓ |
| 证据神经网络 | 似然函数的参数分布 | 确定的 | ✓ | ✓ |
这三个维度的对比揭示了一个深刻的权衡关系:似然估计通过固定权重实现了单次推断的高效性,但失去了对模型不确定性的感知能力;贝叶斯神经网络通过将权重随机化获得了最为完备的认知不确定性建模能力,但代价是必须对权重后验进行近似采样,推断时延迟显著增加;证据神经网络则通过对似然函数的超先验化,在保持权重确定的同时实现了单次推断下的认知不确定性量化,是一种在效率与表达能力之间寻求平衡的新路径。
具体方法全面对比
下表进一步从理论基础、不确定性类型、计算代价、OOD 检测能力、统计保证及实用性对具体方法进行系统对比:
| 方法 | 先验位置 | 权重 | 偶然 \(\mathcal{U}_a\) | 认知 \(\mathcal{U}_e\) | 推断代价 | OOD 检测 | 统计保证 | 适用预训练模型 |
|---|---|---|---|---|---|---|---|---|
| 异方差回归 | 数据分布 | 确定 | ✓ | ✗ | \(1\times\) | 弱 | ✗ | ✗(需重训) |
| 混合密度网络 | 数据分布 | 确定 | ✓ | ✗ | \(1\times\) | 弱 | ✗ | ✗(需重训) |
| 变分 BNN | 权重 | 随机 | ✓ | ✓ | \(T\times\) | 中 | ✗ | ✗(需重训) |
| MC Dropout | 权重(近似) | 随机 | ✓ | ✓ | \(T\times\) | 中 | ✗ | ✓(需 Dropout) |
| 混度集成 | 权重 | 随机 | ✓ | ✓ | \(M\times\) | 强 | ✗ | ✗(需多次训练) |
| 拉普拉斯近似 | 权重 | 随机 | ✓ | ✓ | \(\approx 1\times\) | 中 | ✗ | ✓(后处理) |
| SWAG | 权重 | 随机 | ✓ | ✓ | \(T\times\) | 中 | ✗ | ✓(后处理) |
| EDL(分类) | 似然参数 | 确定 | ✓ | ✓ | \(1\times\) | 强 | ✗ | ✗(需重训) |
| 深度证据回归 | 似然参数 | 确定 | ✓ | ✓ | \(1\times\) | 强 | ✗ | ✗(需重训) |
| 后验网络 | 似然参数 | 确定 | ✓ | ✓ | \(1\times\) | 强 | ✗ | ✗(需重训) |
| 保形预测 | 无(分布无关) | 确定 | — | — | \(1\times\) | 中 | ✓ | ✓(后处理) |
6.2 方法演进时间线
不确定性估计方法的演进遵循从简单参数化到近似贝叶斯再到单次推断的总体轨迹:
timeline
title 不确定性估计方法演进时间线
1994 : 混合密度网络 (Bishop)
2015 : Bayes by Backprop (Blundell et al.)
2016 : MC Dropout (Gal & Ghahramani)
2017 : 深度集成 (Lakshminarayanan et al.)
: 偶然/认知框架 (Kendall & Gal)
2018 : EDL 分类 (Sensoy et al.)
: 先验网络 (Malinin & Gales)
2019 : SWAG (Maddox et al.)
2020 : 深度证据回归 (Amini et al.)
: 后验网络 (Charpentier et al.)
2021 : Laplace Redux (Daxberger et al.)
: 自然后验网络 (Charpentier et al.)
2023 : DER 批评与修正 (Meinert et al.)
6.3 适用场景指南
方法选择应综合考虑任务类型、计算约束与不确定性需求:
计算资源受限、需要快速部署:异方差回归(仅需偶然不确定性)或 EDL(需要 OOD 检测能力)是首选,两者均为单次前向传播。
对不确定性质量要求高、计算资源充足:深度集成是目前实验性能最强的方法,在 OOD 检测和校准性上均表现优异,但需要 \(M\) 倍的计算和存储资源。
已有预训练模型、希望后处理贝叶斯化:拉普拉斯近似(Laplace Redux)或 SWAG 是合理选择,无需重新训练模型。
需要严格统计保证:保形预测是唯一提供覆盖率保证的方法,可与任意底层模型结合使用。
需要精细分离三类不确定性:先验网络或后验网络提供了最为精细的不确定性分解,但后者需要额外的密度估计模块。
七、开放问题与未来方向
7.1 大规模模型的不确定性估计
随着大语言模型(LLM)和视觉基础模型的兴起,不确定性估计面临新的挑战。传统的 BNN 方法在数十亿参数的模型上面临严峻的计算壁垒;深度集成的存储代价在大模型场景下难以承受。近期工作探索了将 SWAG 与低秩适配(LoRA)结合 21,以及利用 LLM 的词汇概率作为不确定性代理的方法,但这些方法的理论基础仍有待深化。
7.2 不确定性的可靠评估
不确定性估计方法的评估本身是一个开放问题。常用的期望校准误差(Expected Calibration Error, ECE)度量置信度与准确率之间的一致性,但 ECE 对分箱策略敏感,且仅反映边际校准性而非条件校准性 22。负对数似然(NLL)和 Brier 分数提供了更为严格的概率评分,但同样无法完整捕捉不确定性估计的所有维度。开发更为全面的不确定性评估基准是该领域的重要需求。
7.3 不确定性与下游任务的整合
不确定性估计的最终价值在于改善下游任务的决策质量。在主动学习中,认知不确定性指导样本采集策略;在强化学习中,认知不确定性驱动探索行为;在异常检测中,OOD 不确定性触发人工审核机制。如何将不确定性估计与这些下游任务进行端到端的整合,并设计与任务目标对齐的不确定性损失函数,是当前研究的重要方向。
7.4 证据学习的理论基础
证据深度学习,尤其是深度证据回归,目前仍处于理论基础尚不完善的阶段。Meinert 等人 18 的批评揭示了 DER 损失函数的启发式本质,而后续修正工作(如 UR-ERN 19)虽然在实验上有所改善,但仍缺乏统一的理论框架。建立证据学习与严格贝叶斯推断之间的理论桥梁,是该方向亟待解决的核心问题。
结语
不确定性估计是构建可信赖深度学习系统的基础能力。本文梳理的四类方法——基于似然的参数化、贝叶斯神经网络、证据深度学习与保形预测——分别从频率主义、贝叶斯主义、证据理论和分布无关统计四个理论视角出发,各有其适用场景与固有局限。
从方法论演进的视角来看,该领域的核心张力在于理论严格性与计算可行性之间的权衡:精确贝叶斯推断在理论上最为完备,但在现代大规模网络上不可行;深度集成在实验上表现最强,但缺乏严格的贝叶斯解释;证据学习在推断效率上最具优势,但理论基础仍有争议。这三大范式的根本分歧在于先验的位置:将先验放在数据分布上得到的是高效但有限的似然估计;放在权重上得到的是完整但代价高昂的贝叶斯推断;放在似然函数上得到的是兼顾效率与认知不确定性的证据学习。随着计算能力的提升和理论工具的完善,这一张力有望在未来的研究中得到更好的调和。