Vanishing Gradient

分类: 深度学习基础

定义

梯度消失（Vanishing Gradient Problem）是指在深层网络的反向传播过程中，梯度随层数逐层指数级衰减，导致靠近输入的浅层参数几乎无法得到有效更新的现象。这是早期深度网络难以训练的主要原因之一。

对于 $L$ 层网络，输出对第 $l$ 层参数的梯度涉及各层 Jacobian 的连乘：

\frac{\partial L}{\partial W_l} \propto \prod_{k=l+1}^{L} J_k

当 $\|J_k\| < 1$ （如 sigmoid 激活的饱和区导致局部梯度 $<0.25$ ）时，连乘结果指数衰减趋近于零。

历史瓶颈：1990年代 sigmoid/tanh 激活函数在饱和区梯度接近零，使 5 层以上的网络几乎无法训练，深度学习因此停滞近二十年

ReLU 的突破：ReLU 在正半轴梯度恒为 1，打破了乘性衰减链条，是深度 CNN 训练成功的关键

残差连接的根本解决：ResNet 通过 $y = F(x) + x$ 提供梯度直通路径， $\frac{\partial y}{\partial x} = \frac{\partial F}{\partial x} + I$ ，使几百层网络的训练成为现实

RNN 中更严重：循环网络中梯度需要穿越时间步，长序列上的梯度消失催生了 LSTM 和 GRU 的门控机制

与梯度爆炸是一体两面：两者都源于 Jacobian 谱半径偏离 1，消失对应谱半径 $<1$ ，爆炸对应 $>1$ 。梯度裁剪可解决爆炸，但消失需要架构层面的设计

Hochreiter (1991) / Bengio et al. (1994): 首次系统分析深度网络中的梯度消失问题

Hochreiter & Schmidhuber (1997): Long Short-Term Memory（门控机制解决 RNN 梯度消失）

He et al. (2016): Deep Residual Learning（残差连接彻底解决深度 CNN 的梯度消失）