CS224N / 学习笔记

LLM-as-Judge

分类: 数据集与评估

LLM-as-Judge

定义

使用大语言模型作为自动评估器来评判其他模型（或自身）输出质量的方法，作为人类评估的可扩展替代方案

核心要点

评判模式：单点评分（Single-Point）、成对比较（Pairwise）、参考答案评分（Reference-Guided）

已知偏差：位置偏差（偏好第一个回答）、冗长偏差（偏好更长回答）、自我偏好偏差（偏好自己生成的内容）

与人类评估的相关性：GPT-4 作为 Judge 与人类评估的一致性可达 80%+ (Zheng et al., 2024)

代表工作

Zheng et al. (2024): “Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena” (NeurIPS 2024)

Li et al. (2023): “AlpacaEval”，基于 LLM Judge 的快速模型比较框架

相关概念