Parameter-Efficient Transfer Learning for NLP
作者: Neil Houlsby, Andrei Giber, Stanislaw Jastrzebski, Bruna Morrone, Quentin de Laroussilhe, Andrea Gesmundo, Mona Attariyan, Sylvain Gelly 年份: 2019 会议: ICML 分类: 量化与低秩
论文笔记:PEFT-NLP
一句话总结
- 提出 Adapter 模块——在预训练模型每层中插入小型瓶颈网络,微调时仅更新 Adapter 参数(约 3.6% 的总参数),性能接近全量微调,开创了参数高效微调(PEFT)方向。
核心贡献
- Adapter 架构:在 Transformer 每层的 self-attention 和 FFN 之后各插入一个 down-project → nonlinearity → up-project 的瓶颈模块,并加残差连接
- 参数效率:在 BERT-large 上微调 26 个 GLUE 任务,每个任务仅需新增 ~3.6% 参数(瓶颈维度 64),性能仅比全量微调低 0.4%
- 任务隔离:不同任务的 Adapter 参数互不干扰,共享同一份预训练权重,便于多任务部署和模型版本管理
- 开创 PEFT 范式:后续 LoRA、Prefix Tuning、Prompt Tuning 等方法均受此工作启发,形成了参数高效微调的研究方向
相关概念
- Adapter
- 参数高效微调
- LoRA
- BERT
- 迁移学习
- Fine-tuning