CALM
分类: 高效推理与部署
CALM
定义
Schuster et al. (2022) 提出的 confidence-based early exit 方法,应用于 encoder-decoder T5 模型,NeurIPS 2022
核心要点
在每层计算 softmax confidence,当 confidence 超过阈值时提前退出
在 T5 翻译任务上实现 2-3x 加速
需要微调模型以适配 early exit
不适用于 decoder-only 自回归模型(未处理 KV Cache)
代表工作
CALM: 原始论文 (NeurIPS 2022)
TIDE: 用 learned router 替代 confidence heuristic,支持 decoder-only