I-JEPA

分类: 网络架构

I-JEPA

定义

Meta AI 提出的图像自监督学习方法,在 latent space 中预测 masked 区域的表示(而非像素),无需手工数据增强即可学习语义丰富的视觉表征

核心要点

预测目标是 EMA teacher 网络最终层的嵌入表示,而非原始像素

不依赖数据增强(crop、color jitter 等),避免了增强偏置

使用非对称掩码策略:context encoder 只看部分 patch,predictor 预测被遮挡区域的表示

在 ImageNet 分类和多种下游任务上表现优异

是 Bootleg(隐藏层自蒸馏)的直接对比基线

代表工作

Assran et al. (2023): “Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture” (Meta AI / CVPR 2023)

相关概念

EMA: I-JEPA 使用 EMA teacher

自蒸馏: I-JEPA 可视为一种自蒸馏方法

DINOv2: 另一种强大的视觉自监督方法