Pretraining
分类: 训练优化
Pretraining
定义
预训练是在大规模无标注数据上通过自监督目标训练模型参数的阶段,使模型学习通用的语言/视觉表示,为下游任务的 Fine-tuning 提供良好的参数初始化。
核心要点
NLP 预训练目标:
- 自回归(Autoregressive):预测下一个 token,代表模型为 GPT 系列
- 掩码语言模型(MLM):随机遮蔽 15% 的 token 并预测,代表模型为 BERT
- 去噪自编码(Denoising):对输入施加多种噪声后重建,代表模型为 T5
视觉预训练目标:
- 对比学习:CLIP、DINO 等,学习图像-文本或图像-图像的对齐表示
- 掩码图像建模(MIM):MAE、BEiT,遮蔽图像 patch 后重建
“预训练 + 微调”范式自 2018 年以来成为 NLP 和 CV 的标准流程,取代了任务特定架构设计
预训练的计算成本极高(GPT-3: ~3.64M GPU·hours),但训练一次可复用于无数下游任务
Scaling Laws 表明预训练损失与模型规模、数据量、计算量呈可预测的幂律关系
预训练数据的质量和多样性对模型能力至关重要——数据清洗、去重、毒性过滤是关键工程环节
代表工作
Devlin et al. (2019): BERT,MLM + NSP 预训练,开创 NLP 预训练时代
Radford et al. (2018): GPT,自回归预训练 + 微调范式
He et al. (2022): MAE (Masked Autoencoders),将掩码预训练扩展到视觉领域
Touvron et al. (2023): LLaMA,高效预训练的开源大语言模型