VideoMAE
分类: 网络架构
VideoMAE
定义
VideoMAE 是一种基于掩码自编码器 (MAE) 的视频自监督预训练方法,通过随机掩码视频 patch 并重建来学习时空表示
核心要点
继承了 ViT + MAE 的范式,扩展到视频域
使用极高的掩码率(90%-95%),利用视频的时空冗余性
预训练后的 backbone 在视频分类、动作识别等任务上表现优秀
证明了视频数据的高冗余性——大量 patch 可以被掩码而不影响表示学习
代表工作
VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training
VideoMAE V2: 扩展到大规模预训练
相关概念
ViT — 基础架构
Token Merging — 利用视频 token 冗余性的另一种方式