IMP

分类: 剪枝与稀疏化

IMP (Iterative Magnitude Pruning)

定义

IMP 是 Lottery Ticket Hypothesis 的核心验证算法:反复执行”训练→按幅度剪枝→回退到初始权重”循环,逐步找到能从原始初始化开始独立训练达到匹配精度的稀疏子网络(“中奖彩票”)

数学形式

给定网络 f(x;θ0)f(x; \theta_0),IMP 迭代执行:

  1. 训练 θ0θT\theta_0 \to \theta_T
  2. 按幅度生成掩码 M=TopK1p(θT)M = \text{TopK}_{1-p}(|\theta_T|),保留 (1p)(1-p) 比例参数
  3. 重置 θθ0M\theta \leftarrow \theta_0 \odot M(或 θk\theta_k for rewinding)
  4. 重复直到达到目标稀疏度

其中 pp 是每轮剪枝比例(通常 20%),θ0\theta_0 是原始随机初始化

核心要点

Lottery Ticket Hypothesis: 密集网络包含可独立训练的稀疏子网络(“中奖彩票”)

IMP 计算开销极大:每轮需要完整训练+剪枝+重置,大模型上不实用

Learning Rate Rewinding: 不回退到 θ0\theta_0 而是回退到训练早期的 θk\theta_k,显著提升大模型上的效果

GNAP 的 grow+prune 范式与 LTH 互补:LTH 是”先训大再找小”,GNAP 是”从小往大长,同时修剪”

代表工作

Frankle & Carlin, 2019: 提出 Lottery Ticket Hypothesis 和 IMP,ICLR 2019

Frankle et al., 2020: 提出 Learning Rate Rewinding

相关概念

幅度剪枝 — IMP 的核心剪枝标准

RigL — 动态稀疏训练,不需要完整训练-剪枝循环

function-preserving — 模型增长的对偶视角