残差连接

分类: 深度学习基础

残差连接

定义

残差连接(Residual Connection)是一种将层的输入直接加到层的输出上的结构,即 y=F(x)+xy = F(x) + x,使网络学习残差映射 F(x)=H(x)xF(x) = H(x) - x 而非直接学习目标映射 H(x)H(x)。该技术由 He et al. (2016) 在 ResNet 中提出,是现代深度网络(CNN、Transformer)的标配组件。

数学形式

y=F(x,{Wi})+xy = F(x, \{W_i\}) + x

xx: 层输入

F(x,{Wi})F(x, \{W_i\}): 残差分支的变换(如两层卷积)

当输入输出维度不一致时,使用线性投影 WsW_s 对齐:y=F(x)+Wsxy = F(x) + W_s x

核心要点

缓解梯度消失:反向传播时梯度可通过恒等路径直接回传,yx=Fx+I\frac{\partial y}{\partial x} = \frac{\partial F}{\partial x} + I,确保梯度不会逐层衰减为零

降低优化难度:学习残差(接近零的小扰动)比学习完整映射更容易,使极深网络(100+ 层)的训练成为可能

信息高速公路:恒等分支让浅层特征可以无损传递到深层,类似 Highway Network 的门控机制但更简洁

普适性:不仅用于 CNN(ResNet),也是 Transformer 中 Add & Norm 的核心(每个 sub-layer 的输出都加上输入)

与模型增长的关系:在 Net2Net / 函数保持增长中,新增层通常初始化为恒等映射,依赖残差连接保证增长前后输出一致

代表工作

He et al. (2016): Deep Residual Learning for Image Recognition (ResNet)

He et al. (2016): Identity Mappings in Deep Residual Networks (Pre-activation ResNet)

Vaswani et al. (2017): Attention Is All You Need(Transformer 中的残差连接)

相关概念

Vanishing Gradient

Highway Network

DenseNet

Transformer