Synthetic Data

分类: 训练优化

Synthetic Data

定义

通过算法、模型或规则自动生成的训练数据,用于替代或增强人工标注数据,广泛应用于 LLM 预训练、对齐和领域适配

核心要点

LLM 自举数据生成:用强模型(如 GPT-4)生成指令-回答对,再用于训练弱模型(Self-Instruct、Alpaca 范式)

数据质量瓶颈:合成数据可能放大模型偏见或引入模式崩塌(model collapse),需结合过滤和去重策略

应用场景:数据稀缺领域(医疗、法律)、隐私敏感场景(差分隐私合成)、代码生成训练(Code Alpaca)

代表工作

Alpaca (Stanford, 2023): 用 GPT-3.5 生成 52K 指令数据训练 LLaMA-7B

Phi-1/Phi-2 (Microsoft, 2023): “Textbooks Are All You Need”,合成教科书级数据训练小模型

LIMA (Meta, 2023): 仅 1000 条高质量数据即可产生强对齐效果

相关概念

RLHF

Fine-tuning

知识蒸馏