BeiT
分类: 网络架构
BeiT
定义
BeiT(BERT Pre-Training of Image Transformers)是微软提出的视觉 Transformer 自监督预训练方法,将 BERT 的 masked language modeling 思想迁移到视觉领域,通过预测被遮蔽 patch 的视觉 token 来学习视觉表示。
核心要点
使用离散 VAE(dVAE)将图像 patch 编码为离散视觉 token,作为预测目标
随机遮蔽约 40% 的图像 patch,训练模型预测对应的视觉 token
预训练后通过微调适配下游任务(分类、检测、分割)
BEiT v2 引入 vector-quantized knowledge distillation(VQ-KD),用语义更丰富的 visual tokenizer
BEiT-3 统一了视觉、语言和多模态预训练
代表工作
BEiT (Bao et al., ICLR 2022): 原始 masked image modeling 方法
BEiT v2 (Peng et al., 2022): 改进的 visual tokenizer
BEiT-3 (Wang et al., 2023): 统一多模态预训练