ReZero
分类: 网络架构
ReZero
定义
用可学习标量 (初始化为 0)缩放层输出,使网络初始时为 identity mapping,简化深层网络训练
数学形式
核心要点
初始化 确保训练初期网络为恒等映射
权重为 static(训练后固定),仅访问前一层
与 LayerScale 类似但使用标量而非 element-wise 缩放
代表工作
Bachlechner et al. 2020: ReZero is All You Need
AttnRes: 从 static scalar 推广到 dynamic cross-layer attention