CS224N / 学习笔记

KL Divergence

分类: 知识蒸馏

KL Divergence

定义

衡量两个概率分布之间差异的非对称度量，常用于知识蒸馏中 teacher-student 分布对齐

数学形式

D_{\text{KL}}(P \| Q) = \sum_{x} P(x) \log \frac{P(x)}{Q(x)}

核心要点

Forward KL ( $D_{\text{KL}}(P \| Q)$ ) 是 mean-seeking 的，Reverse KL ( $D_{\text{KL}}(Q \| P)$ ) 是 mode-seeking 的

非对称性： $D_{\text{KL}}(P \| Q) \neq D_{\text{KL}}(Q \| P)$

在知识蒸馏中，通常用 student 分布 $P$ 拟合 teacher 分布 $Q$

代表工作

Hinton KD: 经典知识蒸馏框架

MTP-D: 用 Forward KL 进行 MTP head 自蒸馏

相关概念

Cross-Entropy Loss