Self-Attention 完整推导

分类: 注意力与Transformer · 难度: 中级 · 关联讲座: L05

Self-Attention 完整推导

本文从 Seq2Seq 注意力出发，完整推导 Self-Attention 的三步计算流程（打分→归一化→加权求和），再推进到 Transformer 中 Query-Key-Value 框架下的缩放点积注意力公式 $\text{Attention}(Q,K,V)$ ，包含缩放因子 $1/\sqrt{d_k}$ 的方差分析、完整的形状追踪和计算复杂度。

1. 三步注意力计算

📐 三步注意力计算：完整推导

变量定义：

$s_t \in \mathbb{R}^d$ = decoder 在时间步 $t$ 的隐状态（Query）
$h_i \in \mathbb{R}^d$ = encoder 第 $i$ 个位置的隐状态（Key/Value）
$H = [h_1, \ldots, h_n] \in \mathbb{R}^{d \times n}$ = 所有 encoder 隐状态
$e_i \in \mathbb{R}$ = 第 $i$ 个位置的注意力分数（标量）
$\alpha \in \mathbb{R}^n$ = 注意力权重向量（概率分布）
$a_t \in \mathbb{R}^d$ = 注意力输出（加权上下文向量）

推导过程：

第 1 步：计算注意力分数（三种等价变体）

点积注意力（Luong et al., 2015）：

$e_i = s_t^T h_i$

缩放点积注意力（Vaswani et al., 2017）：

$e_i = \frac{s_t^T h_i}{\sqrt{d}}$

缩放原因： $s_t^T h_i$ 的期望方差为 $d$ （若 $s_t, h_i$ 各分量 i.i.d. 均值0方差1）， $\sqrt{d}$ 缩放将方差归一化为1。

加性注意力（Bahdanau et al., 2015）：

$e_i = v^T \tanh(W_1 h_i + W_2 s_t), \quad v \in \mathbb{R}^{d_a}, W_1, W_2 \in \mathbb{R}^{d_a \times d}$

参数 $v, W_1, W_2$ 通过反向传播学习，表达能力更强但参数更多。

第 2 步：Softmax 归一化

将 $n$ 个原始分数归一化为概率分布：

$\alpha_i = \frac{\exp(e_i)}{\sum_{j=1}^{n} \exp(e_j)}, \quad \alpha \in \mathbb{R}^n, \quad \sum_{i=1}^{n} \alpha_i = 1, \quad \alpha_i \geq 0$

矩阵形式： $\alpha = \text{softmax}(e)$

第 3 步：加权求和得上下文向量

$a_t = \sum_{i=1}^{n} \alpha_i h_i = H \alpha \in \mathbb{R}^d$

最终将 $a_t$ 与 $s_t$ 拼接，送入输出层： $\tilde{s}_t = \tanh(W_c [a_t; s_t])$ ，用于预测 $y_t$ 。

2. Attention(Q, K, V) 公式

📐 Attention(Q, K, V)：完整推导

变量定义：

$X \in \mathbb{R}^{n \times d_\text{model}}$ = 输入矩阵（序列长度 $n$ ，每个位置 $d_\text{model}$ 维）
$W^Q \in \mathbb{R}^{d_\text{model} \times d_k}$ = Query 投影矩阵
$W^K \in \mathbb{R}^{d_\text{model} \times d_k}$ = Key 投影矩阵
$W^V \in \mathbb{R}^{d_\text{model} \times d_v}$ = Value 投影矩阵
$Q = X W^Q \in \mathbb{R}^{n \times d_k}$ ， $K = X W^K \in \mathbb{R}^{n \times d_k}$ ， $V = X W^V \in \mathbb{R}^{n \times d_v}$

推导过程：

第 1 步：线性投影

每个输入向量 $x_i \in \mathbb{R}^{d_\text{model}}$ 通过三个独立线性变换得到 Q/K/V：

$q_i = x_i W^Q, \quad k_i = x_i W^K, \quad v_i = x_i W^V$

矩阵形式同时处理所有位置： $Q = XW^Q$ ， $K = XW^K$ ， $V = XW^V$

第 2 步：计算相似度矩阵

计算所有 Query 与所有 Key 的点积，得到 $n \times n$ 注意力分数矩阵：

$E = QK^T \in \mathbb{R}^{n \times n}, \quad E_{ij} = q_i^T k_j$

$E_{ij}$ 表示位置 $i$ 对位置 $j$ 的原始注意力分数。

第 3 步：缩放（关键步骤）

为什么需要除以 $\sqrt{d_k}$ ？

设 $q_i, k_j$ 的各分量 i.i.d.，均值 0，方差 1，则：

$\text{Var}(q_i^T k_j) = \text{Var}\!\left(\sum_{l=1}^{d_k} q_{il} k_{jl}\right) = \sum_{l=1}^{d_k} \text{Var}(q_{il}) \cdot \text{Var}(k_{jl}) = d_k$

所以 $q_i^T k_j$ 的标准差为 $\sqrt{d_k}$ 。不缩放时， $d_k$ 较大（如 64）的分数会使 softmax 饱和在接近独热分布的区域，梯度近乎为零。缩放后方差归一化为 1：

$\tilde{E} = \frac{QK^T}{\sqrt{d_k}}$

第 4 步：Softmax 按行归一化

$A = \text{softmax}\!\left(\frac{QK^T}{\sqrt{d_k}}\right) \in \mathbb{R}^{n \times n}$

按行归一化： $A_{ij} = \dfrac{\exp(\tilde{E}_{ij})}{\sum_{l=1}^{n} \exp(\tilde{E}_{il})}$ ，每行之和为 1。

$A_{ij}$ 是位置 $i$ 分配给位置 $j$ 的注意力权重。

第 5 步：加权求和 Value 得输出

$O = AV \in \mathbb{R}^{n \times d_v}, \quad O_i = \sum_{j=1}^{n} A_{ij} v_j$

位置 $i$ 的输出是所有位置 Value 向量按注意力权重的加权平均。

完整公式：

$\boxed{\text{Attention}(Q, K, V) = \text{softmax}\!\left(\frac{QK^T}{\sqrt{d_k}}\right) V}$

形状追踪（务必熟练）：

矩阵	形状	说明
$Q$	$(n \times d_k)$
$K^T$	$(d_k \times n)$
$QK^T$	$(n \times n)$	注意力矩阵，与序列长度平方成正比
$A = \text{softmax}(\cdot)$	$(n \times n)$	行归一化概率矩阵
$V$	$(n \times d_v)$
$O = AV$	$(n \times d_v)$	最终输出

计算复杂度：

$QK^T$ ： $(n \times d_k) \cdot (d_k \times n) \Rightarrow O(n^2 d_k)$
$AV$ ： $(n \times n) \cdot (n \times d_v) \Rightarrow O(n^2 d_v)$
总： $O(n^2 d)$ （ $n^2$ 是瓶颈）