CALM

分类: 高效推理与部署

CALM

定义

Schuster et al. (2022) 提出的 confidence-based early exit 方法,应用于 encoder-decoder T5 模型,NeurIPS 2022

核心要点

在每层计算 softmax confidence,当 confidence 超过阈值时提前退出

在 T5 翻译任务上实现 2-3x 加速

需要微调模型以适配 early exit

不适用于 decoder-only 自回归模型(未处理 KV Cache

代表工作

CALM: 原始论文 (NeurIPS 2022)

TIDE: 用 learned router 替代 confidence heuristic,支持 decoder-only

相关概念

early exit

KV Cache

Speculative Decoding