On the difficulty of training Recurrent Neural Networks

作者: Razvan Pascanu, Tomas Mikolov, Yoshua Bengio 年份: 2013 会议: ICML 分类: 基础理论

论文笔记:Vanishing-Gradient-Pascanu

一句话总结

  • 从动力系统角度严格分析了 RNN 中梯度消失和梯度爆炸的根本原因,并提出梯度裁剪等实用解决方案。

核心贡献

  • 理论分析:证明 RNN 的梯度沿时间步指数级衰减/增长,与隐藏层权重矩阵的谱半径直接相关——谱半径 < 1 时梯度消失,> 1 时梯度爆炸
  • 梯度裁剪(Gradient Clipping):提出当梯度范数超过阈值时按比例缩放的简单策略,有效缓解梯度爆炸,成为后续 RNN/Transformer 训练的标配
  • 正则化方法:提出基于梯度方向约束的正则化项,鼓励梯度在长距离传播中保持稳定,一定程度缓解梯度消失
  • 实验验证:在多个序列建模任务(加法问题、时序序列、语言模型)上验证了分析的正确性和方法的有效性

相关概念

  • RNN
  • LSTM
  • 梯度消失
  • 梯度爆炸
  • 梯度裁剪
  • 序列建模