I-JEPA
分类: 网络架构
I-JEPA
定义
Meta AI 提出的图像自监督学习方法,在 latent space 中预测 masked 区域的表示(而非像素),无需手工数据增强即可学习语义丰富的视觉表征
核心要点
预测目标是 EMA teacher 网络最终层的嵌入表示,而非原始像素
不依赖数据增强(crop、color jitter 等),避免了增强偏置
使用非对称掩码策略:context encoder 只看部分 patch,predictor 预测被遮挡区域的表示
在 ImageNet 分类和多种下游任务上表现优异
是 Bootleg(隐藏层自蒸馏)的直接对比基线
代表工作
Assran et al. (2023): “Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture” (Meta AI / CVPR 2023)
相关概念
EMA: I-JEPA 使用 EMA teacher
自蒸馏: I-JEPA 可视为一种自蒸馏方法
DINOv2: 另一种强大的视觉自监督方法