CS224N / 学习笔记

ViT

分类: 网络架构

ViT

定义

Google 提出的将 Transformer 直接应用于图像分类的架构，将图像分割为固定大小的 patch 序列，经线性嵌入后输入标准 Transformer Encoder

数学形式

$\mathbf{z}_0 = [\mathbf{x}_\text{class}; \mathbf{x}_p^1\mathbf{E}; \cdots; \mathbf{x}_p^N\mathbf{E}] + \mathbf{E}_\text{pos}$

核心要点

输入：将 H×W 图像分割为 N 个 P×P patch
Patch Embedding + Position Embedding + [CLS] token
在大规模预训练后迁移到下游任务效果极佳
催生了大量高效 ViT 变体（DeiT, Swin, PVT 等）

代表工作

（待补充）

相关概念