SkipDecode
分类: 高效推理与部署
SkipDecode
定义
Del Corro et al. (2023) 提出的 post-training early exit 方法,在 batch 解码时统一跳过较低层,接受 KV Cache 不连续性
核心要点
Post-training 方法,不修改模型权重
所有 token 在同一层退出(非 per-token)
接受 KV Cache 中的层缺失,用跳过的层作为近似
适合 batch 推理场景,但 per-token 灵活性不如 TIDE
代表工作
SkipDecode: 原始论文 (arXiv:2307.02628)
TIDE: 支持 per-token 决策的 post-training 替代方案