DeepHoyer
分类: 剪枝与稀疏化
DeepHoyer
定义
DeepHoyer 是一种基于 Hoyer 稀疏性度量的正则化方法,用于在训练过程中诱导神经网络权重的结构化稀疏性,实现训练时剪枝。
数学形式
Hoyer 比值越接近 1 表示越稀疏(只有一个非零元素),越接近 表示越均匀。DeepHoyer 将其作为正则项加入损失函数。
核心要点
基于 Hoyer 稀疏性度量(L1/L2 比值的平方),比单纯 L1 正则化能更好地控制稀疏模式
可同时用于非结构化剪枝和结构化剪枝(按 filter/channel 计算 Hoyer 值)
训练完成后直接将小权重置零,无需额外的剪枝步骤
在 AIMER 论文中被用作 MoE expert 剪枝的对比方法
代表工作
DeepHoyer (Yang et al., ICLR 2020): 原始论文