AlpacaEval: An Automatic Evaluator for Instruction-Following Language Models

作者: Xuechen Li, Tianyi Zhang, Yann Dubois, Rohan Taori, Ishaan Gulrajani, Carlos Guestrin, Percy Liang, Tatsunori B. Hashimoto 年份: 2023 会议: arXiv 分类: 数据集与评估

论文笔记:AlpacaEval

一句话总结

  • 提出 AlpacaEval 自动评测框架,用 LLM(GPT-4)作为裁判对比模型输出与参考模型,提供快速、低成本且与人类评判高度相关的指令遵循能力评估。

核心贡献

  • LLM-as-Judge 自动评测:用 GPT-4 作为自动裁判,对比待评模型和参考模型(text-davinci-003)在 805 条指令上的输出质量,计算 win rate
  • AlpacaEval 2.0 改进:引入 length-controlled win rate,修正了原始版本对长回复的偏好偏差,使评测更加公平
  • 高人类一致性:与 Chatbot Arena 人类投票排名的 Spearman 相关性 > 0.94,评测成本约 $10(远低于人工评测的数千美元)
  • 开源排行榜:维护公开排行榜,覆盖 100+ 模型,成为衡量 instruction-following 模型的重要参考指标

相关概念