灾难性遗忘
分类: 模型增长
灾难性遗忘(Catastrophic Forgetting)
定义
神经网络在学习新任务时,因权重更新而严重损失旧任务的性能,是持续学习(Continual Learning)中的核心挑战。
数学形式
若模型 在任务 上训练后性能为 ,再用 的梯度更新后, 上的性能 急剧下降:
核心要点
根本原因:不同任务的梯度方向可能相互干扰,新任务的训练会”覆盖”旧任务的有用特征
三类解决方案:
- 重放:保留旧任务数据或其生成样本(iCaRL、DER)
- 正则化:约束关键参数更新(EWC、SI)
- 扩张:为新任务增加独立参数空间(PNN、DER、GRACE)
与”稳定性-可塑性困境”直接相关:完全稳定则无遗忘,但丧失学习新知识的能力
代表工作
GRACE: 通过冻结历史 backbone 彻底避免对旧任务特征的遗忘
EWC: 通过 Fisher 信息矩阵约束重要参数