Loss of Plasticity

分类: 模型增长

定义

神经网络在持续学习过程中，随着训练步数增加，逐渐丧失适应新任务能力的现象。表现为：网络对新数据的梯度信号越来越弱，新任务的学习速度持续下降，即使重置优化器状态也无法恢复。

可塑性可以量化为：在新任务上的有效学习率（effective learning rate），或梯度信号对参数更新的实际影响程度：

$\text{plasticity} \propto \left\| \frac{\partial \mathcal{L}_{\text{new}}}{\partial \theta} \right\|_2 \cdot \frac{1}{\|\theta\|}$

当 dead neurons（激活为 0 的神经元）比例增加时，可塑性显著下降。

成因：主要与 dead neurons（ReLU 死亡）、weight rank collapse（权重秩塌缩）、effective learning rate decay 有关

与灾难性遗忘的区别：灾难性遗忘是新任务破坏旧任务性能；可塑性丢失是网络逐渐无法学习任何新东西——方向相反但同为持续学习的挑战

在 MLP 中已有研究（Lyle et al., Dohare et al.）；但 ViT（异质结构，含 MHSA + FFN）中的机制不同，需要分别分析

与模型增长的关联：grow 之后的新层（或扩展的旧层）是否具有足够可塑性来学习新分布，直接决定增长的有效性。grow 操作本身（如 function-preserving 初始化）可能缓解或加剧可塑性问题

恢复方法：周期性重新初始化（如 Shrink-and-Perturb）、正交化（ARROW）、Continual Backpropagation (CBP)、L2 正则化

Lyle et al., 2023: “Understanding Plasticity in Neural Networks”

Dohare et al., 2023: “Loss of Plasticity in Deep Continual Learning”

《Vision Transformers that Never Stop Learning》(2603.07787): 系统研究 ViT 中 MHSA 和 FFN 的可塑性退化机制，提出 ARROW 恢复方法