DistiLLM

分类: 知识蒸馏

DistiLLM

定义

面向 LLM 的高效知识蒸馏方法,使用 Skewed KL divergence 和自适应 off-policy 策略来平衡蒸馏质量和训练效率

核心要点

提出 Skewed KL:forward KL 和 reverse KL 的加权混合,兼顾 mode-covering 和 mode-seeking

自适应 off-policy 策略:动态平衡教师生成数据和学生生成数据的比例

比纯 on-policy 方法(如 MiniLLM)训练效率更高

在 LLM 蒸馏任务上达到 SOTA

代表工作

Ko et al., “DistiLLM: Towards Streamlined Distillation for Large Language Models” (ICML 2024)

相关概念

MiniLLM

GKD

FitNet