CS224N / 学习笔记

#RLHF #simulation #human-feedback #alignment #LLM

AlpacaFarm: A Simulation Framework for Methods that Learn from Human Feedback

作者: Yann Dubois, Xuechen Li, Rohan Taori, Tianyi Zhang, Ishaan Gulrajani, Jimmy Ba, Carlos Guestrin, Percy Liang, Tatsunori B. Hashimoto 年份: 2023 会议: NeurIPS 分类: 训练优化

论文笔记：AlpacaFarm

一句话总结

构建了一个用 LLM 模拟人类反馈的低成本实验框架，使研究者无需昂贵的人工标注即可快速迭代和比较 RLHF 方法。

核心贡献

模拟器框架：用 GPT-4 等 LLM 模拟人类偏好标注，与真实人类标注的一致性达 ~66%（人类间一致性 ~67%），成本降低 45 倍
方法对比：在统一框架下比较 PPO、Best-of-n、Expert Iteration、DPO 等 RLHF 方法，发现 PPO 和 Expert Iteration 在模拟和真实评估中表现最佳
评估协议：提出基于成对比较的自动评估协议，与人类评判的 Spearman 相关性 > 0.97，为 RLHF 研究提供了可靠的自动化评测手段
开源生态：开源模拟器、训练代码、10K 人工标注数据集和评估工具，降低 RLHF 研究的门槛

相关概念

RLHF
PPO
DPO
Alpaca
LLM对齐
人类偏好学习