ViT

分类: 网络架构

ViT

定义

  • Google 提出的将 Transformer 直接应用于图像分类的架构,将图像分割为固定大小的 patch 序列,经线性嵌入后输入标准 Transformer Encoder

数学形式

  • z0=[xclass;xp1E;;xpNE]+Epos\mathbf{z}_0 = [\mathbf{x}_\text{class}; \mathbf{x}_p^1\mathbf{E}; \cdots; \mathbf{x}_p^N\mathbf{E}] + \mathbf{E}_\text{pos}

核心要点

  • 输入:将 H×W 图像分割为 N 个 P×P patch
  • Patch Embedding + Position Embedding + [CLS] token
  • 在大规模预训练后迁移到下游任务效果极佳
  • 催生了大量高效 ViT 变体(DeiT, Swin, PVT 等)

代表工作

  • (待补充)

相关概念