pipeline parallelism

分类: 训练优化

pipeline parallelism

定义

将模型按层切分到不同设备上,通过 micro-batch 流水线调度实现跨设备的并行计算,是大模型分布式训练的核心并行策略之一

核心要点

标准残差下每次 stage 转换仅传输固定大小的隐状态 dd

AttnRes 需要传输所有累积的 block representations,通过 cross-stage caching 将通信从 O(C)O(C) 降到 O(P)O(P)

常见调度策略:1F1B, interleaved 1F1B

与 tensor parallelism (TP)、data parallelism (DP) 正交组合使用

代表工作

GPipe (Huang et al. 2019): 首个大规模 pipeline parallelism 系统

Megatron-LM: 实现了 interleaved pipeline schedule

AttnRes: cross-stage caching 优化 pipeline 通信

相关概念

DeepSpeed

Megatron-LM