ADEPT

分类: 高效推理与部署

ADEPT

定义

使用 draft model 来预测每个 token 所需的 Transformer 深度,实现动态 early exit

核心要点

利用小型 draft model 的输出分布判断 token 难度

难度低的 token 在较浅层退出,难度高的 token 走完全部层

Speculative Decoding 思想结合,draft model 同时用于深度决策

Yoo et al. (2026), arXiv:2601.03700

代表工作

ADEPT: 原始论文

TIDE: 用 learned router 替代 draft model 做深度决策

相关概念

early exit

Speculative Decoding

adaptive computation