structural reparameterization

分类: 高效推理与部署

Structural Reparameterization

定义

训练时使用复杂的多分支结构提升表达能力,推理时通过数学等价变换将多分支合并为单一结构(如单个卷积核),消除额外推理开销的技术

数学形式

Wmerged=i=1BWi,bmerged=i=1BbiW_{\text{merged}} = \sum_{i=1}^{B} W_i, \quad b_{\text{merged}} = \sum_{i=1}^{B} b_i 其中 BB 个并行分支(含 BN 层)在推理时合并为等价的单个卷积

核心要点

核心思想:训练结构 ≠ 推理结构,训练用复杂结构学得更好,推理用简单结构跑得更快

典型操作:多尺度卷积并行 → 合并;identity shortcut → 等价 1×1 卷积 → 合并到 3×3

与模型增长的精神联系:Attention Residuals 的残差缩放系数在推理时可折叠,本质上也是一种重参数化

限制:仅适用于线性运算(卷积、BN),非线性激活之间不可合并

代表工作

RepVGG: 经典之作,3×3 + 1×1 + identity 训练,纯 3×3 推理

DBB (Diverse Branch Block): 更丰富的分支组合

RepLKNet: 大核卷积的重参数化

相关概念

function-preserving

结构化剪枝