Synthetic Data
分类: 训练优化
Synthetic Data
定义
通过算法、模型或规则自动生成的训练数据,用于替代或增强人工标注数据,广泛应用于 LLM 预训练、对齐和领域适配
核心要点
LLM 自举数据生成:用强模型(如 GPT-4)生成指令-回答对,再用于训练弱模型(Self-Instruct、Alpaca 范式)
数据质量瓶颈:合成数据可能放大模型偏见或引入模式崩塌(model collapse),需结合过滤和去重策略
应用场景:数据稀缺领域(医疗、法律)、隐私敏感场景(差分隐私合成)、代码生成训练(Code Alpaca)
代表工作
Alpaca (Stanford, 2023): 用 GPT-3.5 生成 52K 指令数据训练 LLaMA-7B
Phi-1/Phi-2 (Microsoft, 2023): “Textbooks Are All You Need”,合成教科书级数据训练小模型
LIMA (Meta, 2023): 仅 1000 条高质量数据即可产生强对齐效果