ConvNext

分类: 网络架构

ConvNext

定义

纯卷积网络的现代化改造,通过借鉴 ViT 的设计策略(如 patchify stem、更大的 kernel、更少的 activation/norm)将 ResNet 逐步升级为与 Swin Transformer 性能匹配的架构

核心要点

以 ResNet-50 为起点,逐步引入 ViT 设计元素:stage ratio 调整、patchify stem(4×4 conv)、depthwise conv、inverted bottleneck、更大 kernel(7×7)、更少归一化层

每一步都验证性能变化,最终 ConvNeXt-T 在 ImageNet-1K 上达到 82.1%(超 Swin-T 的 81.3%)

V2 版本引入 Global Response Normalization (GRN) 解决特征坍塌问题,进一步提升性能

在检测、分割等下游任务中同样表现强劲,证明纯 CNN 并未过时

数学形式

DWConv(7×7)LayerNorm1×1 Conv (expand)GELU1×1 Conv (project)\text{DWConv}(7 \times 7) \to \text{LayerNorm} \to 1 \times 1 \text{ Conv (expand)} \to \text{GELU} \to 1 \times 1 \text{ Conv (project)}

代表工作

ViT: Transformer 在视觉领域的先驱,ConvNeXt 的设计灵感来源

DINOv2: 使用 ConvNeXt 作为候选 backbone 之一

EUPE: 输出包括 ConvNeXt 系列的高效编码器

相关概念

ViT

DINOv2