DenseFormer
分类: 网络架构
DenseFormer
定义
赋予 Transformer 每层对所有前序层输出的访问能力,使用固定的(input-independent)learned scalar 系数进行加权聚合
数学形式
其中 是训练后固定的标量系数
核心要点
提供 cross-layer access,但系数在训练后固定(input-independent)
在 16 层模型上与 baseline 持平 (1.767 vs 1.766),说明固定系数不足以带来收益
对比 AttnRes 使用 input-dependent softmax attention 权重
代表工作
Pagliardini et al. 2024: DenseFormer 原始论文
AttnRes: 将 DenseFormer 的 static weight 升级为 dynamic softmax attention