KL散度
分类: 深度学习基础
KL散度
定义
衡量两个概率分布 P 和 Q 之间差异的非对称度量,也称相对熵(relative entropy)
数学形式
KL(P∥Q)=i∑P(i)logQ(i)P(i)
核心要点
非对称:KL(P∥Q)=KL(Q∥P)
非负:KL(P∥Q)≥0,当且仅当 P=Q 时等于 0
在知识蒸馏、VAE、分布对齐等场景广泛使用
可分解为交叉熵减去自身熵:KL(P∥Q)=H(P,Q)−H(P)
代表工作
Pruning-on-Representations: 用 KL 散度量化剪枝前后概率分布偏移,证明 KL≈Var(Δz)/(2T2)
相关概念
交叉熵
Softmax
知识蒸馏