CS224N / 学习笔记

灾难性遗忘

分类: 模型增长

灾难性遗忘（Catastrophic Forgetting）

定义

神经网络在学习新任务时，因权重更新而严重损失旧任务的性能，是持续学习（Continual Learning）中的核心挑战。

数学形式

若模型 $\theta$ 在任务 $\mathcal{T}_1$ 上训练后性能为 $A_1$ ，再用 $\mathcal{T}_2$ 的梯度更新后， $\mathcal{T}_1$ 上的性能 $A_1'$ 急剧下降：

\Delta = A_1 - A_1' \gg 0

核心要点

根本原因：不同任务的梯度方向可能相互干扰，新任务的训练会”覆盖”旧任务的有用特征

三类解决方案:

重放：保留旧任务数据或其生成样本（iCaRL、DER）
正则化：约束关键参数更新（EWC、SI）
扩张：为新任务增加独立参数空间（PNN、DER、GRACE）

与”稳定性-可塑性困境”直接相关：完全稳定则无遗忘，但丧失学习新知识的能力

代表工作

GRACE: 通过冻结历史 backbone 彻底避免对旧任务特征的遗忘

EWC: 通过 Fisher 信息矩阵约束重要参数

相关概念

类增量学习

function-preserving