KL Divergence
分类: 知识蒸馏
KL Divergence
定义
衡量两个概率分布之间差异的非对称度量,常用于知识蒸馏中 teacher-student 分布对齐
数学形式
DKL(P∥Q)=x∑P(x)logQ(x)P(x)
核心要点
Forward KL (DKL(P∥Q)) 是 mean-seeking 的,Reverse KL (DKL(Q∥P)) 是 mode-seeking 的
非对称性:DKL(P∥Q)=DKL(Q∥P)
在知识蒸馏中,通常用 student 分布 P 拟合 teacher 分布 Q
代表工作
Hinton KD: 经典知识蒸馏框架
MTP-D: 用 Forward KL 进行 MTP head 自蒸馏
相关概念
Cross-Entropy Loss
自蒸馏
Softmax