Prompt Tuning

分类: 量化与低秩

Prompt Tuning

定义

提示调优是一种极简的参数高效微调方法,在模型输入嵌入层前拼接一组可训练的连续向量(“软提示”),训练时仅更新这些软提示参数,模型的全部权重保持冻结。

数学形式

X^=[P1,P2,,Pm;x1,x2,,xn]\hat{X} = [P_1, P_2, \dots, P_m; x_1, x_2, \dots, x_n] y=LM(X^)y = \text{LM}(\hat{X})

PiRdP_i \in \mathbb{R}^d: 第 ii 个软提示向量,dd 为嵌入维度

mm: 软提示长度(通常 20-100)

xix_i: 原始输入 token 的嵌入

可训练参数量 = m×dm \times d,例如对于 d=4096d=4096, m=100m=100,仅需 ~400K 参数

核心要点

Prefix Tuning 的简化版:仅在输入嵌入层添加软提示,不干预中间层的 key/value

关键发现(Lester et al., 2021):模型越大,Prompt Tuning 与全参数微调的差距越小,在 10B+ 模型上几乎持平

与离散 prompt engineering(手工设计文本提示)的区别:软提示是连续向量空间中的优化结果,不对应任何真实词汇

初始化策略对性能有显著影响:用任务相关词汇的嵌入初始化优于随机初始化

参数量极少(通常 <0.01% 模型参数),是所有 PEFT 方法中最轻量的之一

缺点:在小模型上效果显著弱于 LoRA 和 Adapter;软提示的可解释性差

代表工作

Lester et al. (2021): “The Power of Scale for Parameter-Efficient Prompt Tuning” (EMNLP 2021)

Liu et al. (2023): “GPT Understands, Too”,P-Tuning,将软提示扩展到 NLU 任务

Vu et al. (2022): “SPoT: Better Frozen Model Adaptation through Soft Prompt Transfer” (ACL 2022),跨任务软提示迁移

相关概念

PEFT

Prefix Tuning

Adapter

Fine-tuning

In-Context Learning