消融
分类: 基础理论
消融
定义
通过系统性地移除或替换模型的某个组件(层、模块、特征),观察性能变化来评估该组件的贡献和重要性
核心要点
目的: 量化模型各组件的独立贡献,区分”必要”与”冗余”部分
常见方式: 置零、替换为平均值、跳过、随机化等
指标: 通常测量消融前后的性能退化(如 Perplexity、Accuracy 的变化百分比)
层消融: 在 Transformer 中,将目标层权重替换为相邻层平均值
与剪枝的区别: 消融是分析手段(诊断),剪枝是优化手段(压缩)
代表工作
Growth Transformer Training: 用消融构建完整 30 层重要性图谱,发现 倍的层间重要性差距
ShortGPT: 用 Block Influence 度量替代消融进行层重要性分析
Michel et al. 2019: 注意力头消融,证明多数头可移除