BALD

分类: 训练优化

BALD

定义

主动学习采样策略，选择能最大化模型参数与预测输出之间互信息的样本进行标注，即选择模型对其参数变化最敏感的样本。

数学形式

$\mathbb{I}[y; \boldsymbol{\omega} \mid \mathbf{x}, \mathcal{D}_{\text{train}}] = \mathbb{H}[y \mid \mathbf{x}, \mathcal{D}_{\text{train}}] - \mathbb{E}_{p(\boldsymbol{\omega} \mid \mathcal{D}_{\text{train}})}[\mathbb{H}[y \mid \mathbf{x}, \boldsymbol{\omega}]]$ 其中 $\mathbb{H}$ 为信息熵，第一项为预测熵（不确定性），第二项为期望模型熵（偶然不确定性），差值即为认知不确定性（epistemic uncertainty）。

核心要点

用 MC Dropout 近似贝叶斯推断，多次前向传播估计参数后验

选取互信息最高的样本 = 选取认知不确定性最大的样本

区别于纯熵采样：去除了偶然不确定性（aleatoric uncertainty）的干扰

计算开销：每次采样需 T 次前向传播（通常 T=10~20）

代表工作

PruneFuse — 使用 BALD 作为主动学习 baseline，对比了剪枝代理模型的数据选择方案

BALD

BALD

定义

数学形式

核心要点

代表工作

相关概念