信息熵
分类: 深度学习基础
信息熵
定义
衡量概率分布”不确定性”或”混乱程度”的量,熵越高表示分布越均匀(不确定),熵越低表示分布越集中(确定)。
数学形式
在 AMP 中具体形式为批次平均信息熵:
核心要点
Shannon 信息论的核心概念,衡量随机变量的平均信息量
均匀分布时熵最大(),确定性分布时熵为 0
作为”无标签”重要性代理:模型对特征越确定(判别性越强),熵越低
相比 one-hot cross entropy,信息熵利用完整预测分布,不依赖真实标签
代表工作
Shannon (1948): 信息论基础,提出熵的概念
AMP (2026): 用批次特征相似度的信息熵替代 Taylor pruning 中的 cross entropy,实现无标签神经元重要性评估