幅度剪枝

分类: 剪枝与稀疏化

幅度剪枝

定义

基于权重/激活的绝对值大小作为重要性度量,移除幅度最小的参数或结构

数学形式

Importance(w)=worwx\text{Importance}(w) = |w| \quad \text{or} \quad |w| \cdot |x|

核心要点

最简单直觉的剪枝策略:幅度小 → 不重要 → 可移除

零成本方法:无需前向/反向传播即可计算

Magnitude Bias: 在极端稀疏度下会系统性消除低幅度但功能关键的神经元,性能可能低于随机剪枝

代表方法:ℓ₁-Norm, Wanda (Weights × Activations), RIA

代表工作

Wanda: 权重幅度 × 激活幅度

RIA: 相对重要性与激活

AGF: 揭示幅度剪枝在极端压缩下的 Magnitude Bias 问题

相关概念

结构化剪枝

Taylor pruning

Wanda