训练动态

分类: 模型增长

定义

神经网络在训练过程中权重、梯度、激活值、损失等随训练步数变化的行为规律，包括梯度流、隐状态分布演化、损失景观探索等。

$\theta_{t+1} = \theta_t - \eta \nabla_\theta \mathcal{L}(\theta_t)$

关注量包括：梯度范数 $\|\nabla_\theta \mathcal{L}\|$ 、隐状态范数 $\|h_l\|$ 随层深 $l$ 和训练步 $t$ 的变化。

梯度消失/爆炸：深层网络中梯度随层数指数衰减或放大，直接影响训练稳定性

隐状态增长：标准 PreNorm 残差连接以固定权重累加所有层输出，导致 $\|h_l\|$ 随深度不受控增长，稀释每层贡献（Attention Residuals 分析的核心问题）

损失景观：损失函数曲率（Hessian 特征值分布）决定优化轨迹的平滑性

梯度分布均匀性：各层梯度分布应尽量均匀，否则深层参数更新稀疏

AttnRes: 分析 PreNorm 残差导致隐状态随深度膨胀，提出 AttnRes 改善深度方向梯度均匀性

function-preserving: 增长新层时保持函数等价，避免训练动态的突变

LayerNorm: 归一化是稳定训练动态的核心机制