On the difficulty of training Recurrent Neural Networks
作者: Razvan Pascanu, Tomas Mikolov, Yoshua Bengio 年份: 2013 会议: ICML 分类: 基础理论
论文笔记:Vanishing-Gradient-Pascanu
一句话总结
- 从动力系统角度严格分析了 RNN 中梯度消失和梯度爆炸的根本原因,并提出梯度裁剪等实用解决方案。
核心贡献
- 理论分析:证明 RNN 的梯度沿时间步指数级衰减/增长,与隐藏层权重矩阵的谱半径直接相关——谱半径 < 1 时梯度消失,> 1 时梯度爆炸
- 梯度裁剪(Gradient Clipping):提出当梯度范数超过阈值时按比例缩放的简单策略,有效缓解梯度爆炸,成为后续 RNN/Transformer 训练的标配
- 正则化方法:提出基于梯度方向约束的正则化项,鼓励梯度在长距离传播中保持稳定,一定程度缓解梯度消失
- 实验验证:在多个序列建模任务(加法问题、时序序列、语言模型)上验证了分析的正确性和方法的有效性