PEFT

分类: 量化与低秩

定义

参数高效微调是一类仅训练少量额外参数或模型参数子集即可将预训练模型适配到下游任务的方法，相比全参数 Fine-tuning 大幅降低计算和存储成本，同时保持接近的性能。

核心动机：大模型（如 LLaMA-65B、GPT-3-175B）的全参数微调需要巨大的 GPU 显存和存储，PEFT 通常只需训练 0.1%-1% 的参数

主要方法族：

LoRA 是目前最广泛使用的 PEFT 方法，推理时可将低秩矩阵合并回原始权重，无额外延迟

多任务场景下，PEFT 的优势更明显：每个任务只需存储一份小参数，共享同一个冻结的预训练基座

HuggingFace 的 peft 库提供了统一的 PEFT 实现接口

Houlsby et al. (2019): “Parameter-Efficient Transfer Learning for NLP” (ICML 2019)，提出 Adapter

Li & Liang (2021): “Prefix-Tuning: Optimizing Continuous Prompts for Generation” (ACL 2021)

Lester et al. (2021): “The Power of Scale for Parameter-Efficient Prompt Tuning” (EMNLP 2021)

Hu et al. (2022): “LoRA: Low-Rank Adaptation of Large Language Models” (ICLR 2022)