LayerDrop

分类: 剪枝与稀疏化

LayerDrop

定义

一种结构化正则化和推理加速技术,在训练时随机丢弃(skip)整个 Transformer 层,推理时可按需移除层以实现深度自适应

核心要点

训练阶段: 每个 Transformer 层以概率 pp 被随机跳过,迫使模型学习鲁棒的层间表征

推理阶段: 可以移除任意数量的层而不需要重新训练,实现推理深度的灵活调整

Dropout 的区别: Dropout 丢弃神经元,LayerDrop 丢弃整个层

证明了层可移除性: 早期证明了 Transformer 中许多层是冗余的,可以安全移除

代表工作

Growth Transformer Training: 在 LayerDrop 的层可移除性基础上,进一步量化了全层重要性并设计差异化训练

Fan, Grave, Joulin (2020): “Reducing Transformer Depth on Demand with Structured Dropout”(ICLR 2020,原始论文)

相关概念

depth pruning

Dropout

early exit

adaptive computation