AlpacaFarm: A Simulation Framework for Methods that Learn from Human Feedback

作者: Yann Dubois, Xuechen Li, Rohan Taori, Tianyi Zhang, Ishaan Gulrajani, Jimmy Ba, Carlos Guestrin, Percy Liang, Tatsunori B. Hashimoto 年份: 2023 会议: NeurIPS 分类: 训练优化

论文笔记:AlpacaFarm

一句话总结

  • 构建了一个用 LLM 模拟人类反馈的低成本实验框架,使研究者无需昂贵的人工标注即可快速迭代和比较 RLHF 方法。

核心贡献

  • 模拟器框架:用 GPT-4 等 LLM 模拟人类偏好标注,与真实人类标注的一致性达 ~66%(人类间一致性 ~67%),成本降低 45 倍
  • 方法对比:在统一框架下比较 PPO、Best-of-n、Expert Iteration、DPO 等 RLHF 方法,发现 PPO 和 Expert Iteration 在模拟和真实评估中表现最佳
  • 评估协议:提出基于成对比较的自动评估协议,与人类评判的 Spearman 相关性 > 0.97,为 RLHF 研究提供了可靠的自动化评测手段
  • 开源生态:开源模拟器、训练代码、10K 人工标注数据集和评估工具,降低 RLHF 研究的门槛

相关概念

  • RLHF
  • PPO
  • DPO
  • Alpaca
  • LLM对齐
  • 人类偏好学习