ShortGPT

分类: 剪枝与稀疏化

ShortGPT

定义

ShortGPT 提出了一种基于 Block Influence (BI) 指标的层剪枝方法,发现 LLM 中存在大量冗余层(hidden states 在层间变化极小),通过直接删除低影响力层实现模型压缩。

核心要点

Block Influence (BI):衡量每层对 hidden states 的变化程度,BI 低的层说明贡献小、可删除

发现 LLM 中间层的冗余度最高,首尾层相对重要

极其简单:不需要微调,直接删层即可

在某些模型上删除 25% 的层后性能下降有限

但在某些任务上性能下降剧烈,说明层冗余度与任务相关

代表工作

Men et al., 2024: “ShortGPT: Layers in Large Language Models are More Redundant Than You Expect”

Bielik-Minitron:与 ShortGPT 做对比

相关概念

depth pruning

结构化剪枝

LLM-Pruner

SparseGPT