梯度连乘与条件语言模型推导

分类: 神经网络基础 · 难度: 中级 · 关联讲座: L05

📖 在讲座笔记中查看 →

梯度连乘与条件语言模型推导

本文整理 RNN 梯度消失/爆炸的完整数学推导（链式法则→Jacobian 连乘→奇异值分析），以及 Seq2Seq 条件语言模型的概率分解与训练目标推导。这两个推导是理解”为什么需要注意力机制和 Transformer”的数学基础。

1. 梯度连乘

📐 梯度连乘：完整推导

变量定义：

$h^{(t)}$ = 时间步 $t$ 的隐状态
$W_h$ = 隐状态到隐状态的权重矩阵
$\sigma$ = 激活函数（如 tanh）
$z^{(j)} = W_h h^{(j-1)} + W_x x^{(j)}$ = 前激活值

推导过程：

第 1 步：从损失 $J^{(t)}$ 到 $h^{(k)}$ 的梯度，需要经过链式法则逐步回传：

$\frac{\partial J^{(t)}}{\partial h^{(k)}} = \frac{\partial J^{(t)}}{\partial h^{(t)}} \cdot \frac{\partial h^{(t)}}{\partial h^{(k)}}$

第 2 步：将 $\frac{\partial h^{(t)}}{\partial h^{(k)}}$ 展开为连乘积（每一步用链式法则）：

$\frac{\partial h^{(t)}}{\partial h^{(k)}} = \prod_{j=k+1}^{t} \frac{\partial h^{(j)}}{\partial h^{(j-1)}}$

第 3 步：计算单步 Jacobian，由 $h^{(j)} = \sigma(W_h h^{(j-1)} + W_x x^{(j)})$ 得：

$\frac{\partial h^{(j)}}{\partial h^{(j-1)}} = W_h^T \cdot \text{diag}\!\left(\sigma'(z^{(j)})\right)$

第 4 步：代入连乘积，得完整梯度公式：

$\frac{\partial h^{(t)}}{\partial h^{(k)}} = \prod_{j=k+1}^{t} W_h^T \cdot \text{diag}\!\left(\sigma'(z^{(j)})\right)$

第 5 步：奇异值分析，设 $W_h$ 的最大奇异值为 $\lambda_1$ ， $\sigma'$ 在 $[0,1]$ 有界：

若 $\lambda_1 < 1$ ：乘积随 $t - k$ 指数趋零 → 梯度消失
若 $\lambda_1 > 1$ ：乘积随 $t - k$ 指数爆炸 → 梯度爆炸

Gradient Clipping 算法：

$\hat{g} \leftarrow \begin{cases} \dfrac{\text{threshold}}{\|\hat{g}\|} \hat{g} & \text{若 } \|\hat{g}\| > \text{threshold} \\ \hat{g} & \text{否则} \end{cases}$

直觉：将梯度向量缩放到固定长度以内，保持方向不变，只压缩幅度。

2. 条件语言模型

📐 条件语言模型：完整推导

变量定义：

$x = (x_1, \ldots, x_m)$ = 源句子（长度 $m$ ）
$y = (y_1, \ldots, y_T)$ = 目标句子（长度 $T$ ）
$c$ = 上下文向量（encoder 最终隐状态）
$s^{(t)}$ = decoder 在时间步 $t$ 的隐状态

推导过程：

第 1 步：目标是对 $P(y|x)$ 建模，用概率链式法则分解联合概率：

$P(y|x) = P(y_1, y_2, \ldots, y_T | x) = \prod_{t=1}^{T} P(y_t | y_1, \ldots, y_{t-1}, x)$

第 2 步：Encoder 将 $x$ 压缩为固定向量 $c$ （Encoder RNN 最后一步隐状态）：

$c = h^{(m)}_\text{enc} = f_\text{enc}(x_1, \ldots, x_m)$

第 3 步：Decoder 在每一步利用 $c$ 和之前生成的词：

$s^{(t)} = f_\text{dec}(s^{(t-1)}, y_{t-1}, c)$

$P(y_t | y_{<t}, x) = \text{softmax}(W_o s^{(t)}) \big[y_t\text{-index}\big]$

第 4 步：训练目标——最大化对数似然（对训练集上每个 $(x, y)$ 对求和）：

$\mathcal{L} = \sum_{(x,y) \in \mathcal{D}} \log P(y|x) = \sum_{(x,y) \in \mathcal{D}} \sum_{t=1}^{T} \log P(y_t | y_{<t}, x)$

第 5 步：推断时用贪心解码或 Beam Search 寻找最高概率序列：

$\hat{y} = \arg\max_{y} P(y|x)$