L05: Attention and Transformers

Week 3 · Tue Jan 20 2026 08:00:00 GMT+0800 (中国标准时间)

进度: 0/22 (0%)

下载 PDF

/ 0

100%

正在加载 PDF...

L05: Attention and Transformers

Slides

核心知识点

1. RNN 的梯度消失/爆炸问题回顾

梯度消失： $\frac{\partial J^{(t)}}{\partial h^{(1)}}$ 涉及多次矩阵连乘，小特征值导致梯度趋零
后果：远距离依赖的梯度信号丢失，模型只能学到近距离关系
梯度爆炸：特征值 > 1 时梯度指数增长
- 解决方案：Gradient Clipping（ $\hat{g} \leftarrow \frac{\text{threshold}}{\|\hat{g}\|} \hat{g}$ ）
根本问题：RNN 很难跨多个时间步保留信息
解决思路：LSTM（记忆单元 + 门控），更根本的是注意力机制和残差连接

📐 梯度连乘：完整推导

变量定义：

$h^{(t)}$ = 时间步 $t$ 的隐状态
$W_h$ = 隐状态到隐状态的权重矩阵
$\sigma$ = 激活函数（如 tanh）
$z^{(j)} = W_h h^{(j-1)} + W_x x^{(j)}$ = 前激活值

推导过程：

第 1 步：从损失 $J^{(t)}$ 到 $h^{(k)}$ 的梯度，需要经过链式法则逐步回传：

$\frac{\partial J^{(t)}}{\partial h^{(k)}} = \frac{\partial J^{(t)}}{\partial h^{(t)}} \cdot \frac{\partial h^{(t)}}{\partial h^{(k)}}$

第 2 步：将 $\frac{\partial h^{(t)}}{\partial h^{(k)}}$ 展开为连乘积（每一步用链式法则）：

$\frac{\partial h^{(t)}}{\partial h^{(k)}} = \prod_{j=k+1}^{t} \frac{\partial h^{(j)}}{\partial h^{(j-1)}}$

第 3 步：计算单步 Jacobian，由 $h^{(j)} = \sigma(W_h h^{(j-1)} + W_x x^{(j)})$ 得：

$\frac{\partial h^{(j)}}{\partial h^{(j-1)}} = W_h^T \cdot \text{diag}\!\left(\sigma'(z^{(j)})\right)$

第 4 步：代入连乘积，得完整梯度公式：

$\frac{\partial h^{(t)}}{\partial h^{(k)}} = \prod_{j=k+1}^{t} W_h^T \cdot \text{diag}\!\left(\sigma'(z^{(j)})\right)$

第 5 步：奇异值分析，设 $W_h$ 的最大奇异值为 $\lambda_1$ ， $\sigma'$ 在 $[0,1]$ 有界：

若 $\lambda_1 < 1$ ：乘积随 $t - k$ 指数趋零 → 梯度消失
若 $\lambda_1 > 1$ ：乘积随 $t - k$ 指数爆炸 → 梯度爆炸

Gradient Clipping 算法：

$\hat{g} \leftarrow \begin{cases} \dfrac{\text{threshold}}{\|\hat{g}\|} \hat{g} & \text{若 } \|\hat{g}\| > \text{threshold} \\ \hat{g} & \text{否则} \end{cases}$

直觉：将梯度向量缩放到固定长度以内，保持方向不变，只压缩幅度。

📚 已收录至拓展阅读知识库

🔢 数值计算示例

设定：标量情形， $W_h$ 为标量， $\sigma' = 1$ （线性激活）， $t=10$ ， $k=0$

场景	$W_h$	梯度幅度 $= W_h^{10}$
梯度消失	$0.5$	$0.5^{10} \approx 0.001$
正常传播	$1.0$	$1.0^{10} = 1.000$
梯度爆炸	$2.0$	$2^{10} = 1024$

计算（消失示例）：

每步 × $0.5$ ： $1 \to 0.5 \to 0.25 \to \cdots$
10 步后： $0.5^{10} = 2^{-10} \approx 0.00098$
若学习率为 0.01，实际更新量 $\approx 9.8 \times 10^{-6}$ ，几乎为零

Clipping 示例：若 $\hat{g} = [3, 4]$ （ $\|\hat{g}\| = 5$ ），threshold = 1：

$\hat{g}_\text{clipped} = \frac{1}{5} [3, 4] = [0.6, 0.8]$

💡 为什么这样做？

想象一根绳子传递力——每次传递都衰减一半，10 步之后力气几乎为零（梯度消失）。反过来，每次加倍，10 步后力气大到绳子断掉（梯度爆炸）。

Gradient Clipping 就像给绳子加一个限力器：无论力有多大，传出去的力不超过设定值。它只解决爆炸，不解决消失。

RNN 梯度问题的根本解法：

LSTM/GRU：加法路径（cell state）让梯度可以”直通”多步
Residual connections：加法路径同理
Attention：彻底绕过顺序传递，直接建立任意两步的连接

⚠️ 常见误区

误区：Gradient Clipping 能防止梯度消失 → 正确：Clipping 只防止爆炸（缩小幅度），对消失问题无效；消失需要 LSTM 或注意力机制
误区：LSTM 完全解决了梯度消失 → 正确：LSTM 缓解但不消除，超长距离（>1000 步）依然困难
误区：梯度消失只影响最远的时间步 → 正确：每一步都会受到影响，只是距离越远越严重

2. 机器翻译与 Seq2Seq

NMT 的突破：2014 年首篇 seq2seq 论文 $\to$ 2016 年 Google Translate 全面转向 NMT
Encoder-Decoder 模型：
- Encoder RNN：编码源句子为一个上下文向量
- Decoder RNN：条件语言模型，生成目标句子
条件语言模型： $P(y|x) = \prod_t P(y_t | y_1, \ldots, y_{t-1}, x)$
端到端训练：Encoder + Decoder 作为整体系统，反向传播一步到位
瓶颈问题：整个源句信息被压缩到单一上下文向量

📐 条件语言模型：完整推导

变量定义：

$x = (x_1, \ldots, x_m)$ = 源句子（长度 $m$ ）
$y = (y_1, \ldots, y_T)$ = 目标句子（长度 $T$ ）
$c$ = 上下文向量（encoder 最终隐状态）
$s^{(t)}$ = decoder 在时间步 $t$ 的隐状态

推导过程：

第 1 步：目标是对 $P(y|x)$ 建模，用概率链式法则分解联合概率：

$P(y|x) = P(y_1, y_2, \ldots, y_T | x) = \prod_{t=1}^{T} P(y_t | y_1, \ldots, y_{t-1}, x)$

第 2 步：Encoder 将 $x$ 压缩为固定向量 $c$ （Encoder RNN 最后一步隐状态）：

$c = h^{(m)}_\text{enc} = f_\text{enc}(x_1, \ldots, x_m)$

第 3 步：Decoder 在每一步利用 $c$ 和之前生成的词：

$s^{(t)} = f_\text{dec}(s^{(t-1)}, y_{t-1}, c)$

$P(y_t | y_{<t}, x) = \text{softmax}(W_o s^{(t)}) \big[y_t\text{-index}\big]$

第 4 步：训练目标——最大化对数似然（对训练集上每个 $(x, y)$ 对求和）：

$\mathcal{L} = \sum_{(x,y) \in \mathcal{D}} \log P(y|x) = \sum_{(x,y) \in \mathcal{D}} \sum_{t=1}^{T} \log P(y_t | y_{<t}, x)$

第 5 步：推断时用贪心解码或 Beam Search 寻找最高概率序列：

$\hat{y} = \arg\max_{y} P(y|x)$

📚 已收录至拓展阅读知识库