残差连接
分类: 深度学习基础
残差连接
定义
残差连接(Residual Connection)是一种将层的输入直接加到层的输出上的结构,即 ,使网络学习残差映射 而非直接学习目标映射 。该技术由 He et al. (2016) 在 ResNet 中提出,是现代深度网络(CNN、Transformer)的标配组件。
数学形式
: 层输入
: 残差分支的变换(如两层卷积)
当输入输出维度不一致时,使用线性投影 对齐:
核心要点
缓解梯度消失:反向传播时梯度可通过恒等路径直接回传,,确保梯度不会逐层衰减为零
降低优化难度:学习残差(接近零的小扰动)比学习完整映射更容易,使极深网络(100+ 层)的训练成为可能
信息高速公路:恒等分支让浅层特征可以无损传递到深层,类似 Highway Network 的门控机制但更简洁
普适性:不仅用于 CNN(ResNet),也是 Transformer 中 Add & Norm 的核心(每个 sub-layer 的输出都加上输入)
与模型增长的关系:在 Net2Net / 函数保持增长中,新增层通常初始化为恒等映射,依赖残差连接保证增长前后输出一致
代表工作
He et al. (2016): Deep Residual Learning for Image Recognition (ResNet)
He et al. (2016): Identity Mappings in Deep Residual Networks (Pre-activation ResNet)
Vaswani et al. (2017): Attention Is All You Need(Transformer 中的残差连接)