训练动态

分类: 模型增长

训练动态

定义

神经网络在训练过程中权重、梯度、激活值、损失等随训练步数变化的行为规律,包括梯度流、隐状态分布演化、损失景观探索等。

数学形式

θt+1=θtηθL(θt)\theta_{t+1} = \theta_t - \eta \nabla_\theta \mathcal{L}(\theta_t)

关注量包括:梯度范数 θL\|\nabla_\theta \mathcal{L}\|、隐状态范数 hl\|h_l\| 随层深 ll 和训练步 tt 的变化。

核心要点

梯度消失/爆炸:深层网络中梯度随层数指数衰减或放大,直接影响训练稳定性

隐状态增长:标准 PreNorm 残差连接以固定权重累加所有层输出,导致 hl\|h_l\| 随深度不受控增长,稀释每层贡献(Attention Residuals 分析的核心问题)

损失景观:损失函数曲率(Hessian 特征值分布)决定优化轨迹的平滑性

梯度分布均匀性:各层梯度分布应尽量均匀,否则深层参数更新稀疏

代表工作

AttnRes: 分析 PreNorm 残差导致隐状态随深度膨胀,提出 AttnRes 改善深度方向梯度均匀性

function-preserving: 增长新层时保持函数等价,避免训练动态的突变

LayerNorm: 归一化是稳定训练动态的核心机制

相关概念

PreNorm

function-preserving

neural scaling law

μP