EE-LLM

分类: 高效推理与部署

EE-LLM

定义

Chen et al. (2023) 提出的将 early exit 集成到 LLM 预训练 pipeline 的方法,支持 3D 并行

核心要点

在预训练阶段就引入 early exit loss

支持 tensor/pipeline/data 3D 并行下的 early exit

需要从头训练或继续预训练,成本较高

针对大规模 LLM 的 early exit 训练框架

代表工作

EE-LLM: 原始论文 (arXiv:2312.04916)

TIDE: post-training 替代方案,无需修改预训练流程

相关概念

early exit

LayerSkip

知识蒸馏