VideoMAE

分类: 网络架构

VideoMAE

定义

VideoMAE 是一种基于掩码自编码器 (MAE) 的视频自监督预训练方法,通过随机掩码视频 patch 并重建来学习时空表示

核心要点

继承了 ViT + MAE 的范式,扩展到视频域

使用极高的掩码率(90%-95%),利用视频的时空冗余性

预训练后的 backbone 在视频分类、动作识别等任务上表现优秀

证明了视频数据的高冗余性——大量 patch 可以被掩码而不影响表示学习

代表工作

VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training

VideoMAE V2: 扩展到大规模预训练

相关概念

ViT — 基础架构

Token Merging — 利用视频 token 冗余性的另一种方式