Loss of Plasticity
分类: 模型增长
Loss of Plasticity
定义
神经网络在持续学习过程中,随着训练步数增加,逐渐丧失适应新任务能力的现象。表现为:网络对新数据的梯度信号越来越弱,新任务的学习速度持续下降,即使重置优化器状态也无法恢复。
数学形式
可塑性可以量化为:在新任务上的有效学习率(effective learning rate),或梯度信号对参数更新的实际影响程度:
当 dead neurons(激活为 0 的神经元)比例增加时,可塑性显著下降。
核心要点
成因:主要与 dead neurons(ReLU 死亡)、weight rank collapse(权重秩塌缩)、effective learning rate decay 有关
与灾难性遗忘的区别:灾难性遗忘是新任务破坏旧任务性能;可塑性丢失是网络逐渐无法学习任何新东西——方向相反但同为持续学习的挑战
在 MLP 中已有研究(Lyle et al., Dohare et al.);但 ViT(异质结构,含 MHSA + FFN)中的机制不同,需要分别分析
与模型增长的关联:grow 之后的新层(或扩展的旧层)是否具有足够可塑性来学习新分布,直接决定增长的有效性。grow 操作本身(如 function-preserving 初始化)可能缓解或加剧可塑性问题
恢复方法:周期性重新初始化(如 Shrink-and-Perturb)、正交化(ARROW)、Continual Backpropagation (CBP)、L2 正则化
代表工作
Lyle et al., 2023: “Understanding Plasticity in Neural Networks”
Dohare et al., 2023: “Loss of Plasticity in Deep Continual Learning”
《Vision Transformers that Never Stop Learning》(2603.07787): 系统研究 ViT 中 MHSA 和 FFN 的可塑性退化机制,提出 ARROW 恢复方法
相关概念
function-preserving — function-preserving 初始化对 grow 后可塑性的影响
Taylor pruning — 剪枝中的重要性估计,与可塑性的 dead neuron 指标有交叉
7-训练优化 — 优化器、正则化等对可塑性的影响