pipeline parallelism
分类: 训练优化
pipeline parallelism
定义
将模型按层切分到不同设备上,通过 micro-batch 流水线调度实现跨设备的并行计算,是大模型分布式训练的核心并行策略之一
核心要点
标准残差下每次 stage 转换仅传输固定大小的隐状态
AttnRes 需要传输所有累积的 block representations,通过 cross-stage caching 将通信从 降到
常见调度策略:1F1B, interleaved 1F1B
与 tensor parallelism (TP)、data parallelism (DP) 正交组合使用
代表工作
GPipe (Huang et al. 2019): 首个大规模 pipeline parallelism 系统
Megatron-LM: 实现了 interleaved pipeline schedule
AttnRes: cross-stage caching 优化 pipeline 通信
相关概念
Megatron-LM