AlpacaEval: An Automatic Evaluator for Instruction-Following Language Models

作者: Xuechen Li, Tianyi Zhang, Yann Dubois, Rohan Taori, Ishaan Gulrajani, Carlos Guestrin, Percy Liang, Tatsunori B. Hashimoto 年份: 2023 会议: arXiv 分类: 数据集与评估

论文笔记：AlpacaEval

一句话总结

提出 AlpacaEval 自动评测框架，用 LLM（GPT-4）作为裁判对比模型输出与参考模型，提供快速、低成本且与人类评判高度相关的指令遵循能力评估。

核心贡献

LLM-as-Judge 自动评测：用 GPT-4 作为自动裁判，对比待评模型和参考模型（text-davinci-003）在 805 条指令上的输出质量，计算 win rate
AlpacaEval 2.0 改进：引入 length-controlled win rate，修正了原始版本对长回复的偏好偏差，使评测更加公平
高人类一致性：与 Chatbot Arena 人类投票排名的 Spearman 相关性 > 0.94，评测成本约 $10（远低于人工评测的数千美元）
开源排行榜：维护公开排行榜，覆盖 100+ 模型，成为衡量 instruction-following 模型的重要参考指标

AlpacaEval: An Automatic Evaluator for Instruction-Following Language Models

论文笔记：AlpacaEval

一句话总结

核心贡献

相关概念