continual learning

分类: 训练优化

Continual Learning

持续学习是指模型在学习新任务/数据时，不遗忘已学知识的能力，核心挑战是灾难性遗忘（catastrophic forgetting）

$\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{new}}(\theta) + \lambda \sum_i F_i (\theta_i - \theta_i^*)^2$

以 EWC（Elastic Weight Consolidation）为例： $F_i$ 是 Fisher 信息矩阵对角元素， $\theta^*$ 是旧任务最优参数

$\lambda$ 控制旧知识保持与新知识学习的 trade-off

三大策略：

评估指标：Average Accuracy、Backward Transfer（BWT，遗忘程度）、Forward Transfer（FWT，正迁移）

与模型增长的关联：网络增长天然支持持续学习，新增参数处理新任务，旧参数可冻结

Kirkpatrick et al., 2017 — EWC（PNAS）

Lopez-Paz & Ranzato, 2017 — GEM（Gradient Episodic Memory）

Rusu et al., 2016 — Progressive Neural Networks