ViT
分类: 网络架构
ViT
定义
- Google 提出的将 Transformer 直接应用于图像分类的架构,将图像分割为固定大小的 patch 序列,经线性嵌入后输入标准 Transformer Encoder
数学形式
核心要点
- 输入:将 H×W 图像分割为 N 个 P×P patch
- Patch Embedding + Position Embedding + [CLS] token
- 在大规模预训练后迁移到下游任务效果极佳
- 催生了大量高效 ViT 变体(DeiT, Swin, PVT 等)
代表工作
- (待补充)