I-JEPA

分类: 网络架构

定义

Meta AI 提出的图像自监督学习方法，在 latent space 中预测 masked 区域的表示（而非像素），无需手工数据增强即可学习语义丰富的视觉表征

预测目标是 EMA teacher 网络最终层的嵌入表示，而非原始像素

不依赖数据增强（crop、color jitter 等），避免了增强偏置

使用非对称掩码策略：context encoder 只看部分 patch，predictor 预测被遮挡区域的表示

在 ImageNet 分类和多种下游任务上表现优异

是 Bootleg（隐藏层自蒸馏）的直接对比基线

Assran et al. (2023): “Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture” (Meta AI / CVPR 2023)