pipeline parallelism

分类: 训练优化

定义

将模型按层切分到不同设备上，通过 micro-batch 流水线调度实现跨设备的并行计算，是大模型分布式训练的核心并行策略之一

标准残差下每次 stage 转换仅传输固定大小的隐状态 $d$

AttnRes 需要传输所有累积的 block representations，通过 cross-stage caching 将通信从 $O(C)$ 降到 $O(P)$

常见调度策略：1F1B, interleaved 1F1B

与 tensor parallelism (TP)、data parallelism (DP) 正交组合使用

GPipe (Huang et al. 2019): 首个大规模 pipeline parallelism 系统

Megatron-LM: 实现了 interleaved pipeline schedule

AttnRes: cross-stage caching 优化 pipeline 通信