CS224N / 学习笔记

NAP

分类: 剪枝与稀疏化

NAP

定义

Neural Network Pruning by Gradient Descent，一种基于 Gumbel-Softmax 分布的门控参数实现自主剪枝的方法，权重和网络拓扑通过梯度下降联合优化

核心要点

为每个权重分配一个门控变量，从 Gumbel-Softmax 分布采样（0 或 1）

门控与权重相乘，关闭的门控等价于剪枝

损失函数中加入密度正则项，控制目标稀疏度 $D_{\text{target}}$

剪枝过程完全由梯度下降驱动，无需人工设定剪枝策略

推理时使用确定性 softmax 替代随机采样

数学形式

\mathcal{L} = \mathcal{L}_{\text{pred}} + \alpha \cdot \left| \frac{1}{N} \sum_{i=0}^{N-1} g_i - D_{\text{target}} \right|

代表工作

GNAP: 基于 NAP 扩展，将 $D_{\text{target}}$ 设为 0（最大稀疏化），并增加网络增长机制

相关概念

结构化剪枝