LayerSkip

分类: 高效推理与部署

定义

Elhoushi et al. (2024) 提出的 early exit + self-speculative decoding 方法，通过训练时 layer dropout schedule 和 early exit loss 实现推理加速，ACL 2024

训练阶段引入递增的 layer dropout rate + early exit loss

推理时浅层输出作为 draft，完整模型验证（self-speculative decoding）

需要从头训练或大规模微调

在 LLaMA 上展示了显著加速

LayerSkip: 原始论文 (ACL 2024)

TIDE: 无需重训的 post-training 替代方案