LoRA、Adapter 与 Prompt Tuning 推导

分类: 预训练与微调 · 难度: 中级 · 关联讲座: L09

参数高效微调（PEFT）是现代大模型适配的核心范式。本文系统推导四种主流 PEFT 方法的数学结构：In-Context Learning 的机制分析、LoRA 的低秩分解、Prompt/Prefix Tuning 的软提示注入、以及 Adapter 的瓶颈模块设计。

原始权重更新： $W = W_0 + \Delta W$ ，其中 $W_0 \in \mathbb{R}^{d \times k}$ （冻结）

低秩分解假设： $\Delta W = BA$ ， $B \in \mathbb{R}^{d \times r}$ ， $A \in \mathbb{R}^{r \times k}$ ， $r \ll \min(d, k)$

前向传播： $h = W_0 x + \Delta W x = W_0 x + BAx$

初始化策略： $A \sim \mathcal{N}(0, \sigma^2)$ （高斯）， $B = 0$

这保证训练开始时 $\Delta W = BA = 0$ ，完全不改变原始模型行为，训练更稳定。

缩放因子（原论文添加）：实际使用 $\frac{\alpha}{r} BA$ ，其中 $\alpha$ 是固定超参数（通常 $\alpha = r$ ），方便跨不同 $r$ 值比较学习率。

参数量对比（ $d = k = 4096$ ， $r = 8$ ）：

推理时合并： $W_{\text{merged}} = W_0 + BA$ ，合并后与原始线性层完全等价，零推理延迟。

Prompt Tuning（Lester et al., 2021）：仅在输入 embedding 层添加可训练的 soft prompt tokens：

$h_{\text{input}} = [p_1, p_2, \ldots, p_m,\ \text{Emb}(x_1), \ldots, \text{Emb}(x_n)]$

其中 $p_i \in \mathbb{R}^d$ 是可学习的连续向量（非离散 token），只有 $\{p_1, \ldots, p_m\}$ 参与梯度更新，参数量 = $m \times d$ 。

Prefix Tuning（Li & Liang, 2021）：在每一层 Transformer 的 Key 和 Value 上拼接可训练前缀：

$K_l' = [P_K^{(l)};\ K_l], \quad V_l' = [P_V^{(l)};\ V_l]$

每层都有独立的 $P_K^{(l)}, P_V^{(l)} \in \mathbb{R}^{m \times d_k}$ ，参数量 = $L \times 2 \times m \times d_k$ （ $L$ 为层数）。

Prefix Tuning 更强大（每层都可调整），但参数量也更多；Prompt Tuning 极度精简。

Adapter 在每个 Transformer 子层后插入一个瓶颈模块：

$\text{Adapter}(h) = h + f(h W_{\text{down}}) W_{\text{up}}$

其中：

Houlsby（串行）vs Pfeiffer（并行）：

给定 $k$ 个示例 $(x_1, y_1), \ldots, (x_k, y_k)$ 和查询 $x_{k+1}$ ，ICL 计算：

$P(y \mid x_1, y_1, \ldots, x_k, y_k, x_{k+1}) \propto \pi_{LM}(y \mid \text{prompt})$

关键发现（Min et al., 2022）：示例的格式比示例的正确性更重要。实验将标签随机打乱（如把所有”正面”改成随机标签），ICL 性能几乎不下降！这说明模型主要从示例中学习的是：

而非从正确的 label 中学习因果关系。