MiniLLM

分类: 知识蒸馏

定义

面向 LLM 的 on-policy 知识蒸馏方法，通过最小化学生模型生成分布与教师分布之间的 reverse KL divergence 来缓解 distribution mismatch 问题

$\mathcal{L} = \mathbb{E}_{y \sim p_\theta}[\text{KL}(p_\theta(\cdot|y_{<t}) \| p_T(\cdot|y_{<t}))]$

其中 $p_\theta$ 是学生模型， $p_T$ 是教师模型，期望在学生自身生成的序列上计算

使用 reverse KL 替代 forward KL，避免学生模型过度扩散（mode-covering）

On-policy：学生在自己生成的数据上训练，缓解 exposure bias

通过 policy gradient 估计不可微 KL 的梯度

在 GPT-2 → DistilGPT-2 和 LLaMA 系列蒸馏中验证有效

Gu et al., “MiniLLM: Knowledge Distillation of Large Language Models” (ICLR 2024)