CS224N / 学习笔记

#RNN #vanishing-gradient #exploding-gradient #gradient-clipping

On the difficulty of training Recurrent Neural Networks

作者: Razvan Pascanu, Tomas Mikolov, Yoshua Bengio 年份: 2013 会议: ICML 分类: 基础理论

论文笔记：Vanishing-Gradient-Pascanu

一句话总结

从动力系统角度严格分析了 RNN 中梯度消失和梯度爆炸的根本原因，并提出梯度裁剪等实用解决方案。

核心贡献

理论分析：证明 RNN 的梯度沿时间步指数级衰减/增长，与隐藏层权重矩阵的谱半径直接相关——谱半径 < 1 时梯度消失，> 1 时梯度爆炸
梯度裁剪（Gradient Clipping）：提出当梯度范数超过阈值时按比例缩放的简单策略，有效缓解梯度爆炸，成为后续 RNN/Transformer 训练的标配
正则化方法：提出基于梯度方向约束的正则化项，鼓励梯度在长距离传播中保持稳定，一定程度缓解梯度消失
实验验证：在多个序列建模任务（加法问题、时序序列、语言模型）上验证了分析的正确性和方法的有效性

相关概念

RNN
LSTM
梯度消失
梯度爆炸
梯度裁剪
序列建模