DenseFormer

分类: 网络架构

DenseFormer

定义

赋予 Transformer 每层对所有前序层输出的访问能力,使用固定的(input-independent)learned scalar 系数进行加权聚合

数学形式

hl=α0lh1+i=1l1αilfi(hi)\boldsymbol{h}_l = \alpha_{0 \to l} \boldsymbol{h}_1 + \sum_{i=1}^{l-1} \alpha_{i \to l} f_i(\boldsymbol{h}_i)

其中 αil\alpha_{i \to l} 是训练后固定的标量系数

核心要点

提供 cross-layer access,但系数在训练后固定(input-independent)

在 16 层模型上与 baseline 持平 (1.767 vs 1.766),说明固定系数不足以带来收益

对比 AttnRes 使用 input-dependent softmax attention 权重

代表工作

Pagliardini et al. 2024: DenseFormer 原始论文

AttnRes: 将 DenseFormer 的 static weight 升级为 dynamic softmax attention

相关概念

残差连接

DenseNet