残差连接

分类: 深度学习基础

残差连接

定义

残差连接（Residual Connection）是一种将层的输入直接加到层的输出上的结构，即 $y = F(x) + x$ ，使网络学习残差映射 $F(x) = H(x) - x$ 而非直接学习目标映射 $H(x)$ 。该技术由 He et al. (2016) 在 ResNet 中提出，是现代深度网络（CNN、Transformer）的标配组件。

数学形式

y = F(x, \{W_i\}) + x

$x$ : 层输入

$F(x, \{W_i\})$ : 残差分支的变换（如两层卷积）

当输入输出维度不一致时，使用线性投影 $W_s$ 对齐： $y = F(x) + W_s x$

核心要点

缓解梯度消失：反向传播时梯度可通过恒等路径直接回传， $\frac{\partial y}{\partial x} = \frac{\partial F}{\partial x} + I$ ，确保梯度不会逐层衰减为零

降低优化难度：学习残差（接近零的小扰动）比学习完整映射更容易，使极深网络（100+ 层）的训练成为可能

信息高速公路：恒等分支让浅层特征可以无损传递到深层，类似 Highway Network 的门控机制但更简洁

普适性：不仅用于 CNN（ResNet），也是 Transformer 中 Add & Norm 的核心（每个 sub-layer 的输出都加上输入）

与模型增长的关系：在 Net2Net / 函数保持增长中，新增层通常初始化为恒等映射，依赖残差连接保证增长前后输出一致

代表工作

He et al. (2016): Deep Residual Learning for Image Recognition (ResNet)

He et al. (2016): Identity Mappings in Deep Residual Networks (Pre-activation ResNet)

Vaswani et al. (2017): Attention Is All You Need（Transformer 中的残差连接）

残差连接

残差连接

定义

数学形式

核心要点

代表工作

相关概念