DistiLLM
分类: 知识蒸馏
DistiLLM
定义
面向 LLM 的高效知识蒸馏方法,使用 Skewed KL divergence 和自适应 off-policy 策略来平衡蒸馏质量和训练效率
核心要点
提出 Skewed KL:forward KL 和 reverse KL 的加权混合,兼顾 mode-covering 和 mode-seeking
自适应 off-policy 策略:动态平衡教师生成数据和学生生成数据的比例
比纯 on-policy 方法(如 MiniLLM)训练效率更高
在 LLM 蒸馏任务上达到 SOTA
代表工作
Ko et al., “DistiLLM: Towards Streamlined Distillation for Large Language Models” (ICML 2024)