CS224N / 学习笔记

DistiLLM

分类: 知识蒸馏

DistiLLM

定义

面向 LLM 的高效知识蒸馏方法，使用 Skewed KL divergence 和自适应 off-policy 策略来平衡蒸馏质量和训练效率

核心要点

提出 Skewed KL：forward KL 和 reverse KL 的加权混合，兼顾 mode-covering 和 mode-seeking

自适应 off-policy 策略：动态平衡教师生成数据和学生生成数据的比例

比纯 on-policy 方法（如 MiniLLM）训练效率更高

在 LLM 蒸馏任务上达到 SOTA

代表工作

Ko et al., “DistiLLM: Towards Streamlined Distillation for Large Language Models” (ICML 2024)

相关概念