Highway Network
分类: 网络架构
Highway Network
定义
引入可学习的 element-wise gate 来控制信息在残差路径和变换路径之间的分配,是残差连接的 gating 推广
数学形式
其中 为 transform gate
核心要点
残差连接的特例:,
门控引入了 input-dependent 的权重,但仍然只能访问前一层的压缩状态
depth mixing matrix 为 1-semiseparable(通过累积门控积因子化)
对应 depth-wise 的 softmax-free “stick-breaking” attention
代表工作
Srivastava et al. 2015: Highway Networks 原始论文
AttnRes: 从 gating 推广到 cross-layer softmax attention