BALD
分类: 训练优化
BALD
定义
主动学习采样策略,选择能最大化模型参数与预测输出之间互信息的样本进行标注,即选择模型对其参数变化最敏感的样本。
数学形式
其中 为信息熵,第一项为预测熵(不确定性),第二项为期望模型熵(偶然不确定性),差值即为认知不确定性(epistemic uncertainty)。
核心要点
用 MC Dropout 近似贝叶斯推断,多次前向传播估计参数后验
选取互信息最高的样本 = 选取认知不确定性最大的样本
区别于纯熵采样:去除了偶然不确定性(aleatoric uncertainty)的干扰
计算开销:每次采样需 T 次前向传播(通常 T=10~20)
代表工作
PruneFuse — 使用 BALD 作为主动学习 baseline,对比了剪枝代理模型的数据选择方案
相关概念
BatchBALD — BALD 的批量扩展版本
知识蒸馏 — 均涉及”用便宜代理模型辅助决策”的思路