Wanda

分类: 剪枝与稀疏化

Wanda

定义

一种无需重训练的 LLM 非结构化剪枝方法,将权重幅值与对应输入激活的 L2 范数相乘作为重要性评分,比纯幅值剪枝更准确地识别重要权重。

数学形式

Sijwanda=wijxj2S_{ij}^{\text{wanda}} = |w_{ij}| \cdot \|\mathbf{x}_j\|_2

wijw_{ij}: 第 ii 行第 jj 列权重

xj\mathbf{x}_j: 对应第 jj 个输入通道的激活向量

分数越小 → 权重越不重要 → 优先剪除

核心要点

无 Hessian 计算: 相比 SparseGPT 大幅降低计算开销

逐行 normalization: 在每行内部对分数归一化后再选择剪枝目标,避免跨行不平衡

可在单 GPU 上完成 LLaMA-65B 等大模型的剪枝

代表工作

Sun et al., “A Simple and Effective Pruning Approach for Large Language Models”, ICLR 2024

Bielik-Minitron-7B: 作为 Related Work 参考背景方法

相关概念

SparseGPT

结构化剪枝

depth pruning