DPO
分类: 训练优化
DPO (Direct Preference Optimization)
定义
一种无需显式训练奖励模型的偏好对齐方法,直接利用人类偏好数据优化语言模型策略
数学形式
LDPO(πθ;πref)=−E(x,yw,yl)∼D[logσ(βlogπref(yw∣x)πθ(yw∣x)−βlogπref(yl∣x)πθ(yl∣x))]
yw:人类偏好的”赢”回答;yl:被拒绝的”输”回答
πref:参考策略(通常是 SFT 模型);β:温度参数
核心要点
将 RLHF 中的奖励建模 + PPO 两阶段简化为单阶段优化
利用 Bradley-Terry 模型推导出闭式损失函数,避免了在线采样和价值函数训练
相比 PPO 更稳定、更高效,但可能在 exploration 能力上有所不足
广泛用于 LLM 对齐(ChatGPT 后续模型、LLaMA 系列微调等)
代表工作
Rafailov et al., 2023: 提出 DPO 方法
Bielik-Minitron-7B: 压缩后使用 DPO 做对齐训练
相关概念
GRPO
知识蒸馏