Taylor pruning

分类: 剪枝与稀疏化

Taylor Pruning

定义

使用 Taylor 展开近似损失函数变化量来评估网络组件(神经元/通道/层)重要性的剪枝方法。重要性低的组件被移除。

数学形式

ΔLigiwi+12wi2Hii\Delta \mathcal{L} \approx \sum_i g_i \cdot w_i + \frac{1}{2} w_i^2 H_{ii} 其中 gi=Lwig_i = \frac{\partial \mathcal{L}}{\partial w_i} 是梯度,HiiH_{ii} 是 Hessian 对角元素。一阶近似:giwi|g_i \cdot w_i|

核心要点

一阶 Taylor:只用梯度×权重,计算高效但不够精确

二阶 Taylor:加入 Hessian 信息,更精确但计算代价高

比 magnitude pruning 更准确,因为考虑了损失函数的实际变化

可应用于 filter pruning、neuron pruning、layer pruning

代表工作

Molchanov et al., 2019: Taylor 结构化剪枝

AMP (2026): 用 information entropy 改进 Taylor importance 评估

相关概念

卷积滤波器剪枝