Pretraining

分类: 训练优化

定义

预训练是在大规模无标注数据上通过自监督目标训练模型参数的阶段，使模型学习通用的语言/视觉表示，为下游任务的 Fine-tuning 提供良好的参数初始化。

NLP 预训练目标：

视觉预训练目标：

“预训练 + 微调”范式自 2018 年以来成为 NLP 和 CV 的标准流程，取代了任务特定架构设计

预训练的计算成本极高（GPT-3: ~3.64M GPU·hours），但训练一次可复用于无数下游任务

Scaling Laws 表明预训练损失与模型规模、数据量、计算量呈可预测的幂律关系

预训练数据的质量和多样性对模型能力至关重要——数据清洗、去重、毒性过滤是关键工程环节

Devlin et al. (2019): BERT，MLM + NSP 预训练，开创 NLP 预训练时代

Radford et al. (2018): GPT，自回归预训练 + 微调范式

He et al. (2022): MAE (Masked Autoencoders)，将掩码预训练扩展到视觉领域

Touvron et al. (2023): LLaMA，高效预训练的开源大语言模型