VideoMAE

分类: 网络架构

定义

VideoMAE 是一种基于掩码自编码器 (MAE) 的视频自监督预训练方法，通过随机掩码视频 patch 并重建来学习时空表示

继承了 ViT + MAE 的范式，扩展到视频域

使用极高的掩码率（90%-95%），利用视频的时空冗余性

预训练后的 backbone 在视频分类、动作识别等任务上表现优秀

证明了视频数据的高冗余性——大量 patch 可以被掩码而不影响表示学习

VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training

VideoMAE V2: 扩展到大规模预训练