Hinton KD
分类: 知识蒸馏
Hinton KD
定义
Hinton et al. (2015) 提出的经典知识蒸馏框架,通过温度缩放的 softmax 输出将 teacher 模型的 “dark knowledge” 传递给 student 模型
数学形式
核心要点
温度参数 软化概率分布,暴露类间相似性
“Dark knowledge” 包含 teacher 学到的隐含结构信息
奠定了后续所有蒸馏方法的基础
代表工作
MTP-D: 将自蒸馏应用于 MTP head 训练
分类: 知识蒸馏
Hinton et al. (2015) 提出的经典知识蒸馏框架,通过温度缩放的 softmax 输出将 teacher 模型的 “dark knowledge” 传递给 student 模型
温度参数 软化概率分布,暴露类间相似性
“Dark knowledge” 包含 teacher 学到的隐含结构信息
奠定了后续所有蒸馏方法的基础
MTP-D: 将自蒸馏应用于 MTP head 训练