PEFT
分类: 量化与低秩
PEFT
定义
参数高效微调是一类仅训练少量额外参数或模型参数子集即可将预训练模型适配到下游任务的方法,相比全参数 Fine-tuning 大幅降低计算和存储成本,同时保持接近的性能。
核心要点
核心动机:大模型(如 LLaMA-65B、GPT-3-175B)的全参数微调需要巨大的 GPU 显存和存储,PEFT 通常只需训练 0.1%-1% 的参数
主要方法族:
- Adapter:在 Transformer 层中插入小型可训练模块(Houlsby et al., 2019)
- Prefix Tuning:在注意力层的 key/value 前拼接可训练的虚拟 token(Li & Liang, 2021)
- Prompt Tuning:在输入嵌入前拼接可训练的软提示向量(Lester et al., 2021)
- LoRA:通过低秩矩阵分解近似权重更新(Hu et al., 2022)
- AdaLoRA:自适应分配各层的 LoRA 秩
LoRA 是目前最广泛使用的 PEFT 方法,推理时可将低秩矩阵合并回原始权重,无额外延迟
多任务场景下,PEFT 的优势更明显:每个任务只需存储一份小参数,共享同一个冻结的预训练基座
HuggingFace 的 peft 库提供了统一的 PEFT 实现接口
代表工作
Houlsby et al. (2019): “Parameter-Efficient Transfer Learning for NLP” (ICML 2019),提出 Adapter
Li & Liang (2021): “Prefix-Tuning: Optimizing Continuous Prompts for Generation” (ACL 2021)
Lester et al. (2021): “The Power of Scale for Parameter-Efficient Prompt Tuning” (EMNLP 2021)
Hu et al. (2022): “LoRA: Low-Rank Adaptation of Large Language Models” (ICLR 2022)