Synthetic Data

分类: 训练优化

定义

通过算法、模型或规则自动生成的训练数据，用于替代或增强人工标注数据，广泛应用于 LLM 预训练、对齐和领域适配

LLM 自举数据生成：用强模型（如 GPT-4）生成指令-回答对，再用于训练弱模型（Self-Instruct、Alpaca 范式）

数据质量瓶颈：合成数据可能放大模型偏见或引入模式崩塌（model collapse），需结合过滤和去重策略

应用场景：数据稀缺领域（医疗、法律）、隐私敏感场景（差分隐私合成）、代码生成训练（Code Alpaca）

Alpaca (Stanford, 2023): 用 GPT-3.5 生成 52K 指令数据训练 LLaMA-7B

Phi-1/Phi-2 (Microsoft, 2023): “Textbooks Are All You Need”，合成教科书级数据训练小模型

LIMA (Meta, 2023): 仅 1000 条高质量数据即可产生强对齐效果