Vanishing Gradient

分类: 深度学习基础

Vanishing Gradient

定义

梯度消失(Vanishing Gradient Problem)是指在深层网络的反向传播过程中,梯度随层数逐层指数级衰减,导致靠近输入的浅层参数几乎无法得到有效更新的现象。这是早期深度网络难以训练的主要原因之一。

数学直觉

对于 LL 层网络,输出对第 ll 层参数的梯度涉及各层 Jacobian 的连乘:

LWlk=l+1LJk\frac{\partial L}{\partial W_l} \propto \prod_{k=l+1}^{L} J_k

Jk<1\|J_k\| < 1(如 sigmoid 激活的饱和区导致局部梯度 <0.25<0.25)时,连乘结果指数衰减趋近于零。

核心要点

历史瓶颈:1990年代 sigmoid/tanh 激活函数在饱和区梯度接近零,使 5 层以上的网络几乎无法训练,深度学习因此停滞近二十年

ReLU 的突破:ReLU 在正半轴梯度恒为 1,打破了乘性衰减链条,是深度 CNN 训练成功的关键

残差连接的根本解决:ResNet 通过 y=F(x)+xy = F(x) + x 提供梯度直通路径,yx=Fx+I\frac{\partial y}{\partial x} = \frac{\partial F}{\partial x} + I,使几百层网络的训练成为现实

RNN 中更严重:循环网络中梯度需要穿越时间步,长序列上的梯度消失催生了 LSTM 和 GRU 的门控机制

与梯度爆炸是一体两面:两者都源于 Jacobian 谱半径偏离 1,消失对应谱半径 <1<1,爆炸对应 >1>1。梯度裁剪可解决爆炸,但消失需要架构层面的设计

代表工作

Hochreiter (1991) / Bengio et al. (1994): 首次系统分析深度网络中的梯度消失问题

Hochreiter & Schmidhuber (1997): Long Short-Term Memory(门控机制解决 RNN 梯度消失)

He et al. (2016): Deep Residual Learning(残差连接彻底解决深度 CNN 的梯度消失)

相关概念

残差连接

Activation Function

Gradient Clipping

Jacobian