width pruning

分类: 剪枝与稀疏化

Width Pruning

定义

Width pruning(宽度剪枝)是一种结构化剪枝策略,通过减少网络每层的宽度(如注意力头数、FFN 隐藏维度、通道数)来压缩模型,保持层数不变但每层更”瘦”。

核心要点

中等粒度的结构化剪枝:在 head/channel/neuron 级别裁剪

包含多种子类型:attention head pruning、FFN neuron pruning、embedding dimension pruning

通常用重要性评估(梯度、Taylor、L1-norm)决定裁剪对象

depth pruning 互补,可组合使用

裁剪后模型可直接推理,无需特殊硬件支持

代表工作

HiAP:多粒度 width pruning(宏门 + 微门)

Minitron:混合 depth + width 剪枝

相关概念

depth pruning

结构化剪枝

HiAP

Minitron