Hinton KD

分类: 知识蒸馏

Hinton KD

定义

Hinton et al. (2015) 提出的经典知识蒸馏框架,通过温度缩放的 softmax 输出将 teacher 模型的 “dark knowledge” 传递给 student 模型

数学形式

LKD=αCE(y,ps)+(1α)T2KL(ptT,psT)\mathcal{L}_{\text{KD}} = \alpha \cdot \text{CE}(y, p_s) + (1 - \alpha) \cdot T^2 \cdot \text{KL}(p_t^T, p_s^T)

核心要点

温度参数 TT 软化概率分布,暴露类间相似性

“Dark knowledge” 包含 teacher 学到的隐含结构信息

奠定了后续所有蒸馏方法的基础

代表工作

MTP-D: 将自蒸馏应用于 MTP head 训练

相关概念

KL Divergence

自蒸馏

Cross-Entropy Loss