PVT

分类: 网络架构

定义

层次化（hierarchical）视觉 Transformer，借鉴 CNN 的特征金字塔结构，通过渐进式缩减序列长度生成多尺度特征图，作为密集预测任务（检测/分割）的通用 backbone。

与 isotropic ViT（如 DeiT）不同：全程维持单一分辨率

PVT 通过 patch merging 逐步降低 token 数，生成类 FPN 的多尺度特征

PVTv2 改进：overlapping patch embed + linear complexity attention（减少计算量）

Registers 无益：由于分层结构自然分散了 global token 信息，PVT 不像 DINOv2 那样需要 register tokens

Wang et al., ICCV 2021 — 原始 PVT 论文

ViT-Registers-Reassessment — 验证 PVT 等 hierarchical ViT 不受益于 DINOv2 register tokens