ADEPT
分类: 高效推理与部署
ADEPT
定义
使用 draft model 来预测每个 token 所需的 Transformer 深度,实现动态 early exit
核心要点
利用小型 draft model 的输出分布判断 token 难度
难度低的 token 在较浅层退出,难度高的 token 走完全部层
与 Speculative Decoding 思想结合,draft model 同时用于深度决策
Yoo et al. (2026), arXiv:2601.03700
代表工作
ADEPT: 原始论文
TIDE: 用 learned router 替代 draft model 做深度决策