LLM-Pruner

分类: 剪枝与稀疏化

LLM-Pruner

定义

LLM-Pruner 是一种面向大语言模型的任务无关结构化剪枝方法,通过分析 LLM 内部结构的依赖关系,识别和移除非关键耦合结构,仅需少量数据和有限微调即可压缩模型。

核心要点

依赖图发现:自动识别 LLM 中的耦合结构(如 MHA 中的 head + 对应的 K/Q/V 投影)

分组重要性估计:基于一阶(梯度)和近似二阶(Hessian)信息评估结构组的重要性

任务无关:不依赖特定下游任务的数据,仅需少量通用文本

支持 LLaMA、Vicuna 等主流 LLM 架构

压缩 20% 参数后通过 LoRA 微调可恢复大部分性能

代表工作

Ma et al., 2023: “LLM-Pruner: On the Structural Pruning of Large Language Models”

Bielik-Minitron:与 LLM-Pruner 做对比

相关概念

结构化剪枝

SparseGPT

Taylor pruning

ShortGPT