LayerDrop
分类: 剪枝与稀疏化
LayerDrop
定义
一种结构化正则化和推理加速技术,在训练时随机丢弃(skip)整个 Transformer 层,推理时可按需移除层以实现深度自适应
核心要点
训练阶段: 每个 Transformer 层以概率 被随机跳过,迫使模型学习鲁棒的层间表征
推理阶段: 可以移除任意数量的层而不需要重新训练,实现推理深度的灵活调整
与 Dropout 的区别: Dropout 丢弃神经元,LayerDrop 丢弃整个层
证明了层可移除性: 早期证明了 Transformer 中许多层是冗余的,可以安全移除
代表工作
Growth Transformer Training: 在 LayerDrop 的层可移除性基础上,进一步量化了全层重要性并设计差异化训练
Fan, Grave, Joulin (2020): “Reducing Transformer Depth on Demand with Structured Dropout”(ICLR 2020,原始论文)