Block Influence

分类: 剪枝与稀疏化

Block Influence

定义

衡量 Transformer 中单个 block(层)对隐状态表示改变量的度量;BI 接近 0 表示该层几乎不改变特征,是 depth pruning 的候选层。

数学形式

BIi=11Nn=1Ncos_sim ⁣(Hi(n),Hi+1(n))\text{BI}_i = 1 - \frac{1}{N}\sum_{n=1}^{N}\text{cos\_sim}\!\left(\mathbf{H}_i^{(n)},\, \mathbf{H}_{i+1}^{(n)}\right)

Hi(n)\mathbf{H}_i^{(n)}: 第 nn 个样本在第 ii 层的输出隐状态

NN: 校准集样本数

BI 越低 → 层输入输出越相似 → 该层越可被移除

核心要点

无需梯度,仅前向传播即可计算

适用于 decoder-only LLM 的 depth pruning

与激活幅值方法互补:BI 衡量”层的功能贡献”,激活幅值衡量”神经元的信息密度”

代表工作

ShortGPT: 提出 BI 概念,用于 LLM 整层移除

Minitron: 采用 BI 进行 depth pruning,结合 width pruning 实现多轴压缩

Bielik-Minitron-7B: 在波兰语 LLM 压缩中应用 BI 选择移除层

相关概念

depth pruning

结构化剪枝

Minitron