LLM Evaluation
分类: 数据集与评估
LLM Evaluation
定义
对大语言模型能力进行系统性评估的方法论,涵盖知识、推理、代码、安全等多个维度,是理解和比较 LLM 性能的核心手段
核心要点
评估维度:知识问答(MMLU)、推理(GSM8K, MATH)、代码(HumanEval)、指令遵循(IFEval)、安全(TruthfulQA)
评估范式演变:固定基准 → 动态基准(防数据污染)→ LLM-as-Judge → 人类盲评(Chatbot Arena)
核心挑战:基准饱和、数据污染、评估与真实使用场景的鸿沟、多语言评估覆盖不足
代表工作
HELM (Liang et al., 2023): 斯坦福大学的全面 LLM 评估框架
Chatbot Arena (Zheng et al., 2024): 基于 ELO 评分的人类盲评排行榜
Open LLM Leaderboard (HuggingFace): 开源社区标准化评估平台