信息熵

分类: 深度学习基础

信息熵

定义

衡量概率分布”不确定性”或”混乱程度”的量,熵越高表示分布越均匀(不确定),熵越低表示分布越集中(确定)。

数学形式

H(P)=ipilogpiH(P) = -\sum_{i} p_i \log p_i

在 AMP 中具体形式为批次平均信息熵:

E=1Bi=1Bj=1Bpijlogpij\mathcal{E} = -\frac{1}{B}\sum_{i=1}^{B}\sum_{j=1}^{B}p_{ij} \cdot \log p_{ij}

核心要点

Shannon 信息论的核心概念,衡量随机变量的平均信息量

均匀分布时熵最大(H=lognH = \log n),确定性分布时熵为 0

作为”无标签”重要性代理:模型对特征越确定(判别性越强),熵越低

相比 one-hot cross entropy,信息熵利用完整预测分布,不依赖真实标签

代表工作

Shannon (1948): 信息论基础,提出熵的概念

AMP (2026): 用批次特征相似度的信息熵替代 Taylor pruning 中的 cross entropy,实现无标签神经元重要性评估

相关概念

Taylor pruning

余弦相似度

Softmax