DeepHoyer

分类: 剪枝与稀疏化

定义

DeepHoyer 是一种基于 Hoyer 稀疏性度量的正则化方法，用于在训练过程中诱导神经网络权重的结构化稀疏性，实现训练时剪枝。

$\text{Hoyer}(\mathbf{w}) = \frac{(\sum_i |w_i|)^2}{\sum_i w_i^2}$

Hoyer 比值越接近 1 表示越稀疏（只有一个非零元素），越接近 $\sqrt{n}$ 表示越均匀。DeepHoyer 将其作为正则项加入损失函数。

基于 Hoyer 稀疏性度量（L1/L2 比值的平方），比单纯 L1 正则化能更好地控制稀疏模式

可同时用于非结构化剪枝和结构化剪枝（按 filter/channel 计算 Hoyer 值）

训练完成后直接将小权重置零，无需额外的剪枝步骤

在 AIMER 论文中被用作 MoE expert 剪枝的对比方法

DeepHoyer (Yang et al., ICLR 2020): 原始论文