LayerScale
分类: 网络架构
LayerScale
定义
用可学习的 element-wise 对角缩放矩阵调节每层输出的幅度,初始化为小值以稳定深层 ViT 训练
数学形式
其中 初始化为小常数(如 )
核心要点
比 ReZero 更细粒度(per-channel vs per-layer)
权重为 static,训练后固定
仅访问前一层 ,无 cross-layer access
首次在 CaiT (Going Deeper with Image Transformers) 中提出
代表工作
Touvron et al. 2021: Going Deeper with Image Transformers (CaiT)