Prompt Tuning
分类: 量化与低秩
Prompt Tuning
定义
提示调优是一种极简的参数高效微调方法,在模型输入嵌入层前拼接一组可训练的连续向量(“软提示”),训练时仅更新这些软提示参数,模型的全部权重保持冻结。
数学形式
: 第 个软提示向量, 为嵌入维度
: 软提示长度(通常 20-100)
: 原始输入 token 的嵌入
可训练参数量 = ,例如对于 , ,仅需 ~400K 参数
核心要点
是 Prefix Tuning 的简化版:仅在输入嵌入层添加软提示,不干预中间层的 key/value
关键发现(Lester et al., 2021):模型越大,Prompt Tuning 与全参数微调的差距越小,在 10B+ 模型上几乎持平
与离散 prompt engineering(手工设计文本提示)的区别:软提示是连续向量空间中的优化结果,不对应任何真实词汇
初始化策略对性能有显著影响:用任务相关词汇的嵌入初始化优于随机初始化
参数量极少(通常 <0.01% 模型参数),是所有 PEFT 方法中最轻量的之一
缺点:在小模型上效果显著弱于 LoRA 和 Adapter;软提示的可解释性差
代表工作
Lester et al. (2021): “The Power of Scale for Parameter-Efficient Prompt Tuning” (EMNLP 2021)
Liu et al. (2023): “GPT Understands, Too”,P-Tuning,将软提示扩展到 NLU 任务
Vu et al. (2022): “SPoT: Better Frozen Model Adaptation through Soft Prompt Transfer” (ACL 2022),跨任务软提示迁移