LayerDrop

分类: 剪枝与稀疏化

定义

一种结构化正则化和推理加速技术，在训练时随机丢弃（skip）整个 Transformer 层，推理时可按需移除层以实现深度自适应

训练阶段: 每个 Transformer 层以概率 $p$ 被随机跳过，迫使模型学习鲁棒的层间表征

推理阶段: 可以移除任意数量的层而不需要重新训练，实现推理深度的灵活调整

与 Dropout 的区别: Dropout 丢弃神经元，LayerDrop 丢弃整个层

证明了层可移除性: 早期证明了 Transformer 中许多层是冗余的，可以安全移除

Growth Transformer Training: 在 LayerDrop 的层可移除性基础上，进一步量化了全层重要性并设计差异化训练

Fan, Grave, Joulin (2020): “Reducing Transformer Depth on Demand with Structured Dropout”（ICLR 2020，原始论文）