LLM-as-Judge
分类: 数据集与评估
LLM-as-Judge
定义
使用大语言模型作为自动评估器来评判其他模型(或自身)输出质量的方法,作为人类评估的可扩展替代方案
核心要点
评判模式:单点评分(Single-Point)、成对比较(Pairwise)、参考答案评分(Reference-Guided)
已知偏差:位置偏差(偏好第一个回答)、冗长偏差(偏好更长回答)、自我偏好偏差(偏好自己生成的内容)
与人类评估的相关性:GPT-4 作为 Judge 与人类评估的一致性可达 80%+ (Zheng et al., 2024)
代表工作
Zheng et al. (2024): “Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena” (NeurIPS 2024)
Li et al. (2023): “AlpacaEval”,基于 LLM Judge 的快速模型比较框架