ReZero

分类: 网络架构

ReZero

定义

用可学习标量 αl\alpha_l(初始化为 0)缩放层输出,使网络初始时为 identity mapping,简化深层网络训练

数学形式

hl=hl1+αlfl1(hl1)\boldsymbol{h}_l = \boldsymbol{h}_{l-1} + \alpha_l \cdot f_{l-1}(\boldsymbol{h}_{l-1})

核心要点

初始化 αl=0\alpha_l = 0 确保训练初期网络为恒等映射

权重为 static(训练后固定),仅访问前一层 hl1\boldsymbol{h}_{l-1}

与 LayerScale 类似但使用标量而非 element-wise 缩放

代表工作

Bachlechner et al. 2020: ReZero is All You Need

AttnRes: 从 static scalar 推广到 dynamic cross-layer attention

相关概念

残差连接

LayerScale