Fine-tuning

分类: 训练优化

定义

微调是在 Pretraining 获得的模型参数基础上，使用下游任务的标注数据继续训练模型，使其适配特定任务的过程，是”预训练+微调”范式的第二阶段。

标准全参数微调更新模型的所有参数，学习率通常比预训练小 1-2 个数量级（如 2e-5 vs 1e-4）

微调的本质：利用预训练学到的通用表示作为良好初始化，在下游任务的损失景观中快速收敛

LLM 时代的微调范式演变：

PEFT 方法（Adapter、LoRA、Prefix Tuning、Prompt Tuning）仅训练少量参数即可达到接近全参数微调的效果

微调中的关键问题：

与 In-Context Learning 的对比：微调需要更新参数但泛化性更好，ICL 零参数更新但受限于上下文长度

Howard & Ruder (2018): “Universal Language Model Fine-tuning for Text Classification” (ULMFiT, ACL 2018)，提出判别式微调和逐层解冻策略

Devlin et al. (2019): BERT，展示预训练+微调在 11 个 NLP 任务上的 SOTA

Ouyang et al. (2022): InstructGPT，SFT + RLHF 的微调流水线

Zhou et al. (2023): “LIMA: Less Is More for Alignment”，1000 条高质量数据即可实现良好对齐