BatchBALD

分类: 训练优化

BatchBALD

定义

BALD 的批量扩展,选取一批样本使得批次整体与模型参数的互信息最大化,避免贪心逐一选取导致的信息冗余。

数学形式

x1:b=argmaxx1:bI[y1:b;ωx1:b,Dtrain]\mathbf{x}_{1:b}^* = \arg\max_{\mathbf{x}_{1:b}} \mathbb{I}[y_{1:b}; \boldsymbol{\omega} \mid \mathbf{x}_{1:b}, \mathcal{D}_{\text{train}}] 联合互信息通过链式规则展开,每次贪心添加条件互信息最大的样本。

核心要点

解决 BALD 批量采样时的多样性缺失问题(贪心 BALD 会选出一堆相似样本)

通过显式建模 batch 内样本间的信息重叠来去冗余

计算复杂度较高,实践中常用近似算法

代表工作

PruneFuse — 作为主动学习 baseline 之一进行对比

相关概念

BALD — BatchBALD 的基础版本