Highway Network

分类: 网络架构

Highway Network

定义

引入可学习的 element-wise gate 来控制信息在残差路径和变换路径之间的分配,是残差连接的 gating 推广

数学形式

hl=(1gl)hl1+glfl1(hl1)\boldsymbol{h}_l = (1 - \boldsymbol{g}_l) \odot \boldsymbol{h}_{l-1} + \boldsymbol{g}_l \odot f_{l-1}(\boldsymbol{h}_{l-1})

其中 gl[0,1]d\boldsymbol{g}_l \in [0,1]^d 为 transform gate

核心要点

残差连接的特例:gl=1\boldsymbol{g}_l = \boldsymbol{1}αl=βl=1\alpha_l = \beta_l = 1

门控引入了 input-dependent 的权重,但仍然只能访问前一层的压缩状态 hl1\boldsymbol{h}_{l-1}

depth mixing matrix 为 1-semiseparable(通过累积门控积因子化)

对应 depth-wise 的 softmax-free “stick-breaking” attention

代表工作

Srivastava et al. 2015: Highway Networks 原始论文

AttnRes: 从 gating 推广到 cross-layer softmax attention

相关概念

残差连接

可学习门控