ConvNext

分类: 网络架构

定义

纯卷积网络的现代化改造，通过借鉴 ViT 的设计策略（如 patchify stem、更大的 kernel、更少的 activation/norm）将 ResNet 逐步升级为与 Swin Transformer 性能匹配的架构

以 ResNet-50 为起点，逐步引入 ViT 设计元素：stage ratio 调整、patchify stem（4×4 conv）、depthwise conv、inverted bottleneck、更大 kernel（7×7）、更少归一化层

每一步都验证性能变化，最终 ConvNeXt-T 在 ImageNet-1K 上达到 82.1%（超 Swin-T 的 81.3%）

V2 版本引入 Global Response Normalization (GRN) 解决特征坍塌问题，进一步提升性能

在检测、分割等下游任务中同样表现强劲，证明纯 CNN 并未过时

$\text{DWConv}(7 \times 7) \to \text{LayerNorm} \to 1 \times 1 \text{ Conv (expand)} \to \text{GELU} \to 1 \times 1 \text{ Conv (project)}$

ViT: Transformer 在视觉领域的先驱，ConvNeXt 的设计灵感来源

DINOv2: 使用 ConvNeXt 作为候选 backbone 之一

EUPE: 输出包括 ConvNeXt 系列的高效编码器