RoBERTa
分类: 网络架构
RoBERTa
定义
RoBERTa 是 Meta 对 BERT 的优化版本,通过更大的训练数据、更长的训练时间、去除 NSP 任务、动态 masking 等改进获得更强性能。
核心要点
去除了 BERT 的 Next Sentence Prediction (NSP) 任务
使用动态 masking 替代静态 masking
更大的 batch size 和更多训练数据
在 GLUE 等 NLU benchmark 上显著优于 BERT
代表工作
Liu et al., “RoBERTa: A Robustly Optimized BERT Pretraining Approach” (2019)
相关概念
BERT — 基础架构
DeiT — 类似的”优化训练策略”思路在视觉领域的体现