BALD

分类: 训练优化

BALD

定义

主动学习采样策略,选择能最大化模型参数与预测输出之间互信息的样本进行标注,即选择模型对其参数变化最敏感的样本。

数学形式

I[y;ωx,Dtrain]=H[yx,Dtrain]Ep(ωDtrain)[H[yx,ω]]\mathbb{I}[y; \boldsymbol{\omega} \mid \mathbf{x}, \mathcal{D}_{\text{train}}] = \mathbb{H}[y \mid \mathbf{x}, \mathcal{D}_{\text{train}}] - \mathbb{E}_{p(\boldsymbol{\omega} \mid \mathcal{D}_{\text{train}})}[\mathbb{H}[y \mid \mathbf{x}, \boldsymbol{\omega}]] 其中 H\mathbb{H} 为信息熵,第一项为预测熵(不确定性),第二项为期望模型熵(偶然不确定性),差值即为认知不确定性(epistemic uncertainty)。

核心要点

用 MC Dropout 近似贝叶斯推断,多次前向传播估计参数后验

选取互信息最高的样本 = 选取认知不确定性最大的样本

区别于纯熵采样:去除了偶然不确定性(aleatoric uncertainty)的干扰

计算开销:每次采样需 T 次前向传播(通常 T=10~20)

代表工作

PruneFuse — 使用 BALD 作为主动学习 baseline,对比了剪枝代理模型的数据选择方案

相关概念

BatchBALD — BALD 的批量扩展版本

知识蒸馏 — 均涉及”用便宜代理模型辅助决策”的思路