CS224N / 学习笔记

DenseFormer

分类: 网络架构

DenseFormer

定义

赋予 Transformer 每层对所有前序层输出的访问能力，使用固定的（input-independent）learned scalar 系数进行加权聚合

数学形式

\boldsymbol{h}_l = \alpha_{0 \to l} \boldsymbol{h}_1 + \sum_{i=1}^{l-1} \alpha_{i \to l} f_i(\boldsymbol{h}_i)

其中 $\alpha_{i \to l}$ 是训练后固定的标量系数

核心要点

提供 cross-layer access，但系数在训练后固定（input-independent）

在 16 层模型上与 baseline 持平 (1.767 vs 1.766)，说明固定系数不足以带来收益

对比 AttnRes 使用 input-dependent softmax attention 权重

代表工作

Pagliardini et al. 2024: DenseFormer 原始论文

AttnRes: 将 DenseFormer 的 static weight 升级为 dynamic softmax attention

相关概念