RoBERTa

分类: 网络架构

RoBERTa

定义

RoBERTa 是 Meta 对 BERT 的优化版本,通过更大的训练数据、更长的训练时间、去除 NSP 任务、动态 masking 等改进获得更强性能。

核心要点

去除了 BERT 的 Next Sentence Prediction (NSP) 任务

使用动态 masking 替代静态 masking

更大的 batch size 和更多训练数据

在 GLUE 等 NLU benchmark 上显著优于 BERT

代表工作

Liu et al., “RoBERTa: A Robustly Optimized BERT Pretraining Approach” (2019)

相关概念

BERT — 基础架构

DeiT — 类似的”优化训练策略”思路在视觉领域的体现