early exit 分类: 高效推理与部署early exit 定义 允许模型在中间层就输出预测结果的推理加速技术,简单样本在浅层退出、困难样本才跑完整个网络,从而在不损失平均精度的前提下降低平均推理延迟 核心要点 每个退出点需要一个辅助分类器/输出头 需要置信度判断机制决定是否退出 与模型增长方向互补:增长决定’长到多深’,early exit 决定’用到多深’ 常与 split computing 结合用于边端协同推理 代表工作 (待补充) 相关概念 adaptive computation FlashAttention 知识蒸馏