width pruning
分类: 剪枝与稀疏化
Width Pruning
定义
Width pruning(宽度剪枝)是一种结构化剪枝策略,通过减少网络每层的宽度(如注意力头数、FFN 隐藏维度、通道数)来压缩模型,保持层数不变但每层更”瘦”。
核心要点
中等粒度的结构化剪枝:在 head/channel/neuron 级别裁剪
包含多种子类型:attention head pruning、FFN neuron pruning、embedding dimension pruning
通常用重要性评估(梯度、Taylor、L1-norm)决定裁剪对象
与 depth pruning 互补,可组合使用
裁剪后模型可直接推理,无需特殊硬件支持
代表工作
HiAP:多粒度 width pruning(宏门 + 微门)
Minitron:混合 depth + width 剪枝