信息熵

分类: 深度学习基础

定义

衡量概率分布”不确定性”或”混乱程度”的量，熵越高表示分布越均匀（不确定），熵越低表示分布越集中（确定）。

H(P) = -\sum_{i} p_i \log p_i

在 AMP 中具体形式为批次平均信息熵：

\mathcal{E} = -\frac{1}{B}\sum_{i=1}^{B}\sum_{j=1}^{B}p_{ij} \cdot \log p_{ij}

Shannon 信息论的核心概念，衡量随机变量的平均信息量

均匀分布时熵最大（ $H = \log n$ ），确定性分布时熵为 0

作为”无标签”重要性代理：模型对特征越确定（判别性越强），熵越低

相比 one-hot cross entropy，信息熵利用完整预测分布，不依赖真实标签

Shannon (1948): 信息论基础，提出熵的概念

AMP (2026): 用批次特征相似度的信息熵替代 Taylor pruning 中的 cross entropy，实现无标签神经元重要性评估