continual learning

分类: 训练优化

Continual Learning

定义

持续学习是指模型在学习新任务/数据时,不遗忘已学知识的能力,核心挑战是灾难性遗忘(catastrophic forgetting)

数学形式

Ltotal=Lnew(θ)+λiFi(θiθi)2\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{new}}(\theta) + \lambda \sum_i F_i (\theta_i - \theta_i^*)^2

以 EWC(Elastic Weight Consolidation)为例:FiF_i 是 Fisher 信息矩阵对角元素,θ\theta^* 是旧任务最优参数

λ\lambda 控制旧知识保持与新知识学习的 trade-off

核心要点

三大策略

  • 正则化方法(EWC, SI, LwF):约束重要参数不大幅变化
  • 回放方法(Experience Replay, GEM):存储旧数据样本或用生成模型合成
  • 架构方法(Progressive Networks, PackNet):为新任务分配新参数

评估指标:Average Accuracy、Backward Transfer(BWT,遗忘程度)、Forward Transfer(FWT,正迁移)

与模型增长的关联:网络增长天然支持持续学习,新增参数处理新任务,旧参数可冻结

代表工作

Kirkpatrick et al., 2017 — EWC(PNAS)

Lopez-Paz & Ranzato, 2017 — GEM(Gradient Episodic Memory)

Rusu et al., 2016 — Progressive Neural Networks

相关概念

灾难性遗忘 — 持续学习的核心挑战

Loss of Plasticity — 持续学习中模型逐渐失去学习新知识的能力

progressive training — 渐进式训练与持续学习有交叉