Parameter-Efficient Transfer Learning for NLP

作者: Neil Houlsby, Andrei Giber, Stanislaw Jastrzebski, Bruna Morrone, Quentin de Laroussilhe, Andrea Gesmundo, Mona Attariyan, Sylvain Gelly 年份: 2019 会议: ICML 分类: 量化与低秩

论文笔记:PEFT-NLP

一句话总结

  • 提出 Adapter 模块——在预训练模型每层中插入小型瓶颈网络,微调时仅更新 Adapter 参数(约 3.6% 的总参数),性能接近全量微调,开创了参数高效微调(PEFT)方向。

核心贡献

  • Adapter 架构:在 Transformer 每层的 self-attention 和 FFN 之后各插入一个 down-project → nonlinearity → up-project 的瓶颈模块,并加残差连接
  • 参数效率:在 BERT-large 上微调 26 个 GLUE 任务,每个任务仅需新增 ~3.6% 参数(瓶颈维度 64),性能仅比全量微调低 0.4%
  • 任务隔离:不同任务的 Adapter 参数互不干扰,共享同一份预训练权重,便于多任务部署和模型版本管理
  • 开创 PEFT 范式:后续 LoRA、Prefix Tuning、Prompt Tuning 等方法均受此工作启发,形成了参数高效微调的研究方向

相关概念