Wanda

分类: 剪枝与稀疏化

定义

一种无需重训练的 LLM 非结构化剪枝方法，将权重幅值与对应输入激活的 L2 范数相乘作为重要性评分，比纯幅值剪枝更准确地识别重要权重。

S_{ij}^{\text{wanda}} = |w_{ij}| \cdot \|\mathbf{x}_j\|_2

$w_{ij}$ : 第 $i$ 行第 $j$ 列权重

$\mathbf{x}_j$ : 对应第 $j$ 个输入通道的激活向量

分数越小 → 权重越不重要 → 优先剪除

无 Hessian 计算: 相比 SparseGPT 大幅降低计算开销

逐行 normalization: 在每行内部对分数归一化后再选择剪枝目标，避免跨行不平衡

可在单 GPU 上完成 LLaMA-65B 等大模型的剪枝

Sun et al., “A Simple and Effective Pruning Approach for Large Language Models”, ICLR 2024

Bielik-Minitron-7B: 作为 Related Work 参考背景方法