ConvNext
分类: 网络架构
ConvNext
定义
纯卷积网络的现代化改造,通过借鉴 ViT 的设计策略(如 patchify stem、更大的 kernel、更少的 activation/norm)将 ResNet 逐步升级为与 Swin Transformer 性能匹配的架构
核心要点
以 ResNet-50 为起点,逐步引入 ViT 设计元素:stage ratio 调整、patchify stem(4×4 conv)、depthwise conv、inverted bottleneck、更大 kernel(7×7)、更少归一化层
每一步都验证性能变化,最终 ConvNeXt-T 在 ImageNet-1K 上达到 82.1%(超 Swin-T 的 81.3%)
V2 版本引入 Global Response Normalization (GRN) 解决特征坍塌问题,进一步提升性能
在检测、分割等下游任务中同样表现强劲,证明纯 CNN 并未过时
数学形式
代表工作
ViT: Transformer 在视觉领域的先驱,ConvNeXt 的设计灵感来源
DINOv2: 使用 ConvNeXt 作为候选 backbone 之一
EUPE: 输出包括 ConvNeXt 系列的高效编码器