灾难性遗忘

分类: 模型增长

灾难性遗忘(Catastrophic Forgetting)

定义

神经网络在学习新任务时,因权重更新而严重损失旧任务的性能,是持续学习(Continual Learning)中的核心挑战。

数学形式

若模型 θ\theta 在任务 T1\mathcal{T}_1 上训练后性能为 A1A_1,再用 T2\mathcal{T}_2 的梯度更新后,T1\mathcal{T}_1 上的性能 A1A_1' 急剧下降:

Δ=A1A10\Delta = A_1 - A_1' \gg 0

核心要点

根本原因:不同任务的梯度方向可能相互干扰,新任务的训练会”覆盖”旧任务的有用特征

三类解决方案:

  1. 重放:保留旧任务数据或其生成样本(iCaRL、DER)
  2. 正则化:约束关键参数更新(EWC、SI)
  3. 扩张:为新任务增加独立参数空间(PNN、DER、GRACE)

与”稳定性-可塑性困境”直接相关:完全稳定则无遗忘,但丧失学习新知识的能力

代表工作

GRACE: 通过冻结历史 backbone 彻底避免对旧任务特征的遗忘

EWC: 通过 Fisher 信息矩阵约束重要参数

相关概念

类增量学习

function-preserving