AlpacaFarm: A Simulation Framework for Methods that Learn from Human Feedback
作者: Yann Dubois, Xuechen Li, Rohan Taori, Tianyi Zhang, Ishaan Gulrajani, Jimmy Ba, Carlos Guestrin, Percy Liang, Tatsunori B. Hashimoto 年份: 2023 会议: NeurIPS 分类: 训练优化
论文笔记:AlpacaFarm
一句话总结
- 构建了一个用 LLM 模拟人类反馈的低成本实验框架,使研究者无需昂贵的人工标注即可快速迭代和比较 RLHF 方法。
核心贡献
- 模拟器框架:用 GPT-4 等 LLM 模拟人类偏好标注,与真实人类标注的一致性达 ~66%(人类间一致性 ~67%),成本降低 45 倍
- 方法对比:在统一框架下比较 PPO、Best-of-n、Expert Iteration、DPO 等 RLHF 方法,发现 PPO 和 Expert Iteration 在模拟和真实评估中表现最佳
- 评估协议:提出基于成对比较的自动评估协议,与人类评判的 Spearman 相关性 > 0.97,为 RLHF 研究提供了可靠的自动化评测手段
- 开源生态:开源模拟器、训练代码、10K 人工标注数据集和评估工具,降低 RLHF 研究的门槛