GraSP

分类: 剪枝与稀疏化

GraSP

定义

GraSP (Gradient Signal Preservation) 是 Wang et al. (2020) 提出的训练前剪枝方法,通过保留能最大化梯度流的连接来确定剪枝掩码,与 SNIP 的梯度幅值标准互补。

数学形式

sj=(Hjθj)gjs_j = -\left( H_j \cdot \boldsymbol{\theta}_j \right) \cdot g_j

其中 HjH_j 为 Hessian-梯度乘积,gjg_j 为梯度。保留使梯度流增加最多的连接。

核心要点

关注梯度流(gradient flow)而非梯度幅值

移除那些阻碍梯度流通的连接,而非梯度最小的连接

与 SNIP 的关键区别:SNIP 保留”当前最重要”的连接,GraSP 保留”对训练最有利”的连接

在高稀疏度下表现优于 SNIP

代表工作

Wang et al. “Picking Winning Tickets Before Training by Preserving Gradient Flow” (ICLR 2020)

相关概念

SNIP

Taylor pruning

Hessian

结构化剪枝