训练动态
分类: 模型增长
训练动态
定义
神经网络在训练过程中权重、梯度、激活值、损失等随训练步数变化的行为规律,包括梯度流、隐状态分布演化、损失景观探索等。
数学形式
关注量包括:梯度范数 、隐状态范数 随层深 和训练步 的变化。
核心要点
梯度消失/爆炸:深层网络中梯度随层数指数衰减或放大,直接影响训练稳定性
隐状态增长:标准 PreNorm 残差连接以固定权重累加所有层输出,导致 随深度不受控增长,稀释每层贡献(Attention Residuals 分析的核心问题)
损失景观:损失函数曲率(Hessian 特征值分布)决定优化轨迹的平滑性
梯度分布均匀性:各层梯度分布应尽量均匀,否则深层参数更新稀疏
代表工作
AttnRes: 分析 PreNorm 残差导致隐状态随深度膨胀,提出 AttnRes 改善深度方向梯度均匀性
function-preserving: 增长新层时保持函数等价,避免训练动态的突变
LayerNorm: 归一化是稳定训练动态的核心机制