NAP

分类: 剪枝与稀疏化

NAP

定义

Neural Network Pruning by Gradient Descent,一种基于 Gumbel-Softmax 分布的门控参数实现自主剪枝的方法,权重和网络拓扑通过梯度下降联合优化

核心要点

为每个权重分配一个门控变量,从 Gumbel-Softmax 分布采样(0 或 1)

门控与权重相乘,关闭的门控等价于剪枝

损失函数中加入密度正则项,控制目标稀疏度 DtargetD_{\text{target}}

剪枝过程完全由梯度下降驱动,无需人工设定剪枝策略

推理时使用确定性 softmax 替代随机采样

数学形式

L=Lpred+α1Ni=0N1giDtarget\mathcal{L} = \mathcal{L}_{\text{pred}} + \alpha \cdot \left| \frac{1}{N} \sum_{i=0}^{N-1} g_i - D_{\text{target}} \right|

代表工作

GNAP: 基于 NAP 扩展,将 DtargetD_{\text{target}} 设为 0(最大稀疏化),并增加网络增长机制

相关概念

Gumbel-Softmax

结构化剪枝

L1 正则化

ART