LLM-Pruner

分类: 剪枝与稀疏化

定义

LLM-Pruner 是一种面向大语言模型的任务无关结构化剪枝方法，通过分析 LLM 内部结构的依赖关系，识别和移除非关键耦合结构，仅需少量数据和有限微调即可压缩模型。

依赖图发现：自动识别 LLM 中的耦合结构（如 MHA 中的 head + 对应的 K/Q/V 投影）

分组重要性估计：基于一阶（梯度）和近似二阶（Hessian）信息评估结构组的重要性

任务无关：不依赖特定下游任务的数据，仅需少量通用文本

支持 LLaMA、Vicuna 等主流 LLM 架构

压缩 20% 参数后通过 LoRA 微调可恢复大部分性能

Ma et al., 2023: “LLM-Pruner: On the Structural Pruning of Large Language Models”

Bielik-Minitron：与 LLM-Pruner 做对比