KL散度

分类: 深度学习基础

KL散度

定义

衡量两个概率分布 PPQQ 之间差异的非对称度量,也称相对熵(relative entropy)

数学形式

KL(PQ)=iP(i)logP(i)Q(i)\text{KL}(P \| Q) = \sum_i P(i) \log \frac{P(i)}{Q(i)}

核心要点

非对称:KL(PQ)KL(QP)\text{KL}(P\|Q) \neq \text{KL}(Q\|P)

非负:KL(PQ)0\text{KL}(P\|Q) \geq 0,当且仅当 P=QP=Q 时等于 0

在知识蒸馏、VAE、分布对齐等场景广泛使用

可分解为交叉熵减去自身熵:KL(PQ)=H(P,Q)H(P)\text{KL}(P\|Q) = H(P,Q) - H(P)

代表工作

Pruning-on-Representations: 用 KL 散度量化剪枝前后概率分布偏移,证明 KLVar(Δz)/(2T2)\text{KL} \approx \text{Var}(\Delta z)/(2T^2)

相关概念

交叉熵

Softmax

知识蒸馏