DeepHoyer

分类: 剪枝与稀疏化

DeepHoyer

定义

DeepHoyer 是一种基于 Hoyer 稀疏性度量的正则化方法,用于在训练过程中诱导神经网络权重的结构化稀疏性,实现训练时剪枝。

数学形式

Hoyer(w)=(iwi)2iwi2\text{Hoyer}(\mathbf{w}) = \frac{(\sum_i |w_i|)^2}{\sum_i w_i^2}

Hoyer 比值越接近 1 表示越稀疏(只有一个非零元素),越接近 n\sqrt{n} 表示越均匀。DeepHoyer 将其作为正则项加入损失函数。

核心要点

基于 Hoyer 稀疏性度量(L1/L2 比值的平方),比单纯 L1 正则化能更好地控制稀疏模式

可同时用于非结构化剪枝和结构化剪枝(按 filter/channel 计算 Hoyer 值)

训练完成后直接将小权重置零,无需额外的剪枝步骤

在 AIMER 论文中被用作 MoE expert 剪枝的对比方法

代表工作

DeepHoyer (Yang et al., ICLR 2020): 原始论文

相关概念

结构化剪枝

Taylor pruning

SparseGPT