Parameter-Efficient Transfer Learning for NLP

作者: Neil Houlsby, Andrei Giber, Stanislaw Jastrzebski, Bruna Morrone, Quentin de Laroussilhe, Andrea Gesmundo, Mona Attariyan, Sylvain Gelly 年份: 2019 会议: ICML 分类: 量化与低秩

论文笔记：PEFT-NLP

一句话总结

提出 Adapter 模块——在预训练模型每层中插入小型瓶颈网络，微调时仅更新 Adapter 参数（约 3.6% 的总参数），性能接近全量微调，开创了参数高效微调（PEFT）方向。

核心贡献

Adapter 架构：在 Transformer 每层的 self-attention 和 FFN 之后各插入一个 down-project → nonlinearity → up-project 的瓶颈模块，并加残差连接
参数效率：在 BERT-large 上微调 26 个 GLUE 任务，每个任务仅需新增 ~3.6% 参数（瓶颈维度 64），性能仅比全量微调低 0.4%
任务隔离：不同任务的 Adapter 参数互不干扰，共享同一份预训练权重，便于多任务部署和模型版本管理
开创 PEFT 范式：后续 LoRA、Prefix Tuning、Prompt Tuning 等方法均受此工作启发，形成了参数高效微调的研究方向

Parameter-Efficient Transfer Learning for NLP

论文笔记：PEFT-NLP

一句话总结

核心贡献

相关概念