KL Divergence

分类: 知识蒸馏

KL Divergence

定义

衡量两个概率分布之间差异的非对称度量,常用于知识蒸馏中 teacher-student 分布对齐

数学形式

DKL(PQ)=xP(x)logP(x)Q(x)D_{\text{KL}}(P \| Q) = \sum_{x} P(x) \log \frac{P(x)}{Q(x)}

核心要点

Forward KL (DKL(PQ)D_{\text{KL}}(P \| Q)) 是 mean-seeking 的,Reverse KL (DKL(QP)D_{\text{KL}}(Q \| P)) 是 mode-seeking 的

非对称性:DKL(PQ)DKL(QP)D_{\text{KL}}(P \| Q) \neq D_{\text{KL}}(Q \| P)

在知识蒸馏中,通常用 student 分布 PP 拟合 teacher 分布 QQ

代表工作

Hinton KD: 经典知识蒸馏框架

MTP-D: 用 Forward KL 进行 MTP head 自蒸馏

相关概念

Cross-Entropy Loss

自蒸馏

Softmax