Block Influence
分类: 剪枝与稀疏化
Block Influence
定义
衡量 Transformer 中单个 block(层)对隐状态表示改变量的度量;BI 接近 0 表示该层几乎不改变特征,是 depth pruning 的候选层。
数学形式
: 第 个样本在第 层的输出隐状态
: 校准集样本数
BI 越低 → 层输入输出越相似 → 该层越可被移除
核心要点
无需梯度,仅前向传播即可计算
适用于 decoder-only LLM 的 depth pruning
与激活幅值方法互补:BI 衡量”层的功能贡献”,激活幅值衡量”神经元的信息密度”
代表工作
ShortGPT: 提出 BI 概念,用于 LLM 整层移除
Minitron: 采用 BI 进行 depth pruning,结合 width pruning 实现多轴压缩
Bielik-Minitron-7B: 在波兰语 LLM 压缩中应用 BI 选择移除层