Prompt Tuning

分类: 量化与低秩

定义

提示调优是一种极简的参数高效微调方法，在模型输入嵌入层前拼接一组可训练的连续向量（“软提示”），训练时仅更新这些软提示参数，模型的全部权重保持冻结。

\hat{X} = [P_1, P_2, \dots, P_m; x_1, x_2, \dots, x_n]

y = \text{LM}(\hat{X})

$P_i \in \mathbb{R}^d$ : 第 $i$ 个软提示向量， $d$ 为嵌入维度

$m$ : 软提示长度（通常 20-100）

$x_i$ : 原始输入 token 的嵌入

可训练参数量 = $m \times d$ ，例如对于 $d=4096$ , $m=100$ ，仅需 ~400K 参数

是 Prefix Tuning 的简化版：仅在输入嵌入层添加软提示，不干预中间层的 key/value

关键发现（Lester et al., 2021）：模型越大，Prompt Tuning 与全参数微调的差距越小，在 10B+ 模型上几乎持平

与离散 prompt engineering（手工设计文本提示）的区别：软提示是连续向量空间中的优化结果，不对应任何真实词汇

初始化策略对性能有显著影响：用任务相关词汇的嵌入初始化优于随机初始化

参数量极少（通常 <0.01% 模型参数），是所有 PEFT 方法中最轻量的之一

缺点：在小模型上效果显著弱于 LoRA 和 Adapter；软提示的可解释性差

Lester et al. (2021): “The Power of Scale for Parameter-Efficient Prompt Tuning” (EMNLP 2021)

Liu et al. (2023): “GPT Understands, Too”，P-Tuning，将软提示扩展到 NLU 任务

Vu et al. (2022): “SPoT: Better Frozen Model Adaptation through Soft Prompt Transfer” (ACL 2022)，跨任务软提示迁移