BeiT

分类: 网络架构

BeiT

定义

BeiT（BERT Pre-Training of Image Transformers）是微软提出的视觉 Transformer 自监督预训练方法，将 BERT 的 masked language modeling 思想迁移到视觉领域，通过预测被遮蔽 patch 的视觉 token 来学习视觉表示。

核心要点

使用离散 VAE（dVAE）将图像 patch 编码为离散视觉 token，作为预测目标

随机遮蔽约 40% 的图像 patch，训练模型预测对应的视觉 token

预训练后通过微调适配下游任务（分类、检测、分割）

BEiT v2 引入 vector-quantized knowledge distillation（VQ-KD），用语义更丰富的 visual tokenizer

BEiT-3 统一了视觉、语言和多模态预训练

代表工作

BEiT (Bao et al., ICLR 2022): 原始 masked image modeling 方法

BEiT v2 (Peng et al., 2022): 改进的 visual tokenizer

BEiT-3 (Wang et al., 2023): 统一多模态预训练

BeiT

BeiT

定义

核心要点

代表工作

相关概念