PVT

分类: 网络架构

PVT

定义

层次化(hierarchical)视觉 Transformer,借鉴 CNN 的特征金字塔结构,通过渐进式缩减序列长度生成多尺度特征图,作为密集预测任务(检测/分割)的通用 backbone。

核心要点

与 isotropic ViT(如 DeiT)不同:全程维持单一分辨率

PVT 通过 patch merging 逐步降低 token 数,生成类 FPN 的多尺度特征

PVTv2 改进:overlapping patch embed + linear complexity attention(减少计算量)

Registers 无益:由于分层结构自然分散了 global token 信息,PVT 不像 DINOv2 那样需要 register tokens

代表工作

Wang et al., ICCV 2021 — 原始 PVT 论文

ViT-Registers-Reassessment — 验证 PVT 等 hierarchical ViT 不受益于 DINOv2 register tokens

相关概念

ViT — 等各向同性 ViT,与 PVT 形成对比

DINOv2 — 使用 register tokens 的 isotropic ViT