SkipDecode

分类: 高效推理与部署

SkipDecode

定义

Del Corro et al. (2023) 提出的 post-training early exit 方法,在 batch 解码时统一跳过较低层,接受 KV Cache 不连续性

核心要点

Post-training 方法,不修改模型权重

所有 token 在同一层退出(非 per-token)

接受 KV Cache 中的层缺失,用跳过的层作为近似

适合 batch 推理场景,但 per-token 灵活性不如 TIDE

代表工作

SkipDecode: 原始论文 (arXiv:2307.02628)

TIDE: 支持 per-token 决策的 post-training 替代方案

相关概念

early exit

KV Cache

CALM