PVT
分类: 网络架构
PVT
定义
层次化(hierarchical)视觉 Transformer,借鉴 CNN 的特征金字塔结构,通过渐进式缩减序列长度生成多尺度特征图,作为密集预测任务(检测/分割)的通用 backbone。
核心要点
与 isotropic ViT(如 DeiT)不同:全程维持单一分辨率
PVT 通过 patch merging 逐步降低 token 数,生成类 FPN 的多尺度特征
PVTv2 改进:overlapping patch embed + linear complexity attention(减少计算量)
Registers 无益:由于分层结构自然分散了 global token 信息,PVT 不像 DINOv2 那样需要 register tokens
代表工作
Wang et al., ICCV 2021 — 原始 PVT 论文
ViT-Registers-Reassessment — 验证 PVT 等 hierarchical ViT 不受益于 DINOv2 register tokens
相关概念
ViT — 等各向同性 ViT,与 PVT 形成对比
DINOv2 — 使用 register tokens 的 isotropic ViT