Vanishing Gradient
分类: 深度学习基础
Vanishing Gradient
定义
梯度消失(Vanishing Gradient Problem)是指在深层网络的反向传播过程中,梯度随层数逐层指数级衰减,导致靠近输入的浅层参数几乎无法得到有效更新的现象。这是早期深度网络难以训练的主要原因之一。
数学直觉
对于 层网络,输出对第 层参数的梯度涉及各层 Jacobian 的连乘:
当 (如 sigmoid 激活的饱和区导致局部梯度 )时,连乘结果指数衰减趋近于零。
核心要点
历史瓶颈:1990年代 sigmoid/tanh 激活函数在饱和区梯度接近零,使 5 层以上的网络几乎无法训练,深度学习因此停滞近二十年
ReLU 的突破:ReLU 在正半轴梯度恒为 1,打破了乘性衰减链条,是深度 CNN 训练成功的关键
残差连接的根本解决:ResNet 通过 提供梯度直通路径,,使几百层网络的训练成为现实
RNN 中更严重:循环网络中梯度需要穿越时间步,长序列上的梯度消失催生了 LSTM 和 GRU 的门控机制
与梯度爆炸是一体两面:两者都源于 Jacobian 谱半径偏离 1,消失对应谱半径 ,爆炸对应 。梯度裁剪可解决爆炸,但消失需要架构层面的设计
代表工作
Hochreiter (1991) / Bengio et al. (1994): 首次系统分析深度网络中的梯度消失问题
Hochreiter & Schmidhuber (1997): Long Short-Term Memory(门控机制解决 RNN 梯度消失)
He et al. (2016): Deep Residual Learning(残差连接彻底解决深度 CNN 的梯度消失)