Loss of Plasticity

分类: 模型增长

Loss of Plasticity

定义

神经网络在持续学习过程中,随着训练步数增加,逐渐丧失适应新任务能力的现象。表现为:网络对新数据的梯度信号越来越弱,新任务的学习速度持续下降,即使重置优化器状态也无法恢复。

数学形式

可塑性可以量化为:在新任务上的有效学习率(effective learning rate),或梯度信号对参数更新的实际影响程度:

plasticityLnewθ21θ\text{plasticity} \propto \left\| \frac{\partial \mathcal{L}_{\text{new}}}{\partial \theta} \right\|_2 \cdot \frac{1}{\|\theta\|}

当 dead neurons(激活为 0 的神经元)比例增加时,可塑性显著下降。

核心要点

成因:主要与 dead neurons(ReLU 死亡)、weight rank collapse(权重秩塌缩)、effective learning rate decay 有关

与灾难性遗忘的区别:灾难性遗忘是新任务破坏旧任务性能;可塑性丢失是网络逐渐无法学习任何新东西——方向相反但同为持续学习的挑战

在 MLP 中已有研究(Lyle et al., Dohare et al.);但 ViT(异质结构,含 MHSA + FFN)中的机制不同,需要分别分析

与模型增长的关联:grow 之后的新层(或扩展的旧层)是否具有足够可塑性来学习新分布,直接决定增长的有效性。grow 操作本身(如 function-preserving 初始化)可能缓解或加剧可塑性问题

恢复方法:周期性重新初始化(如 Shrink-and-Perturb)、正交化(ARROW)、Continual Backpropagation (CBP)、L2 正则化

代表工作

Lyle et al., 2023: “Understanding Plasticity in Neural Networks”

Dohare et al., 2023: “Loss of Plasticity in Deep Continual Learning”

《Vision Transformers that Never Stop Learning》(2603.07787): 系统研究 ViT 中 MHSA 和 FFN 的可塑性退化机制,提出 ARROW 恢复方法

相关概念

function-preserving — function-preserving 初始化对 grow 后可塑性的影响

Taylor pruning — 剪枝中的重要性估计,与可塑性的 dead neuron 指标有交叉

7-训练优化 — 优化器、正则化等对可塑性的影响