LLM Evaluation

分类: 数据集与评估

LLM Evaluation

定义

对大语言模型能力进行系统性评估的方法论,涵盖知识、推理、代码、安全等多个维度,是理解和比较 LLM 性能的核心手段

核心要点

评估维度:知识问答(MMLU)、推理(GSM8K, MATH)、代码(HumanEval)、指令遵循(IFEval)、安全(TruthfulQA)

评估范式演变:固定基准 → 动态基准(防数据污染)→ LLM-as-Judge → 人类盲评(Chatbot Arena)

核心挑战:基准饱和、数据污染、评估与真实使用场景的鸿沟、多语言评估覆盖不足

代表工作

HELM (Liang et al., 2023): 斯坦福大学的全面 LLM 评估框架

Chatbot Arena (Zheng et al., 2024): 基于 ELO 评分的人类盲评排行榜

Open LLM Leaderboard (HuggingFace): 开源社区标准化评估平台

相关概念

LLM-as-Judge

Benchmarking

Calibration