LLM Evaluation

分类: 数据集与评估

定义

对大语言模型能力进行系统性评估的方法论，涵盖知识、推理、代码、安全等多个维度，是理解和比较 LLM 性能的核心手段

评估维度：知识问答（MMLU）、推理（GSM8K, MATH）、代码（HumanEval）、指令遵循（IFEval）、安全（TruthfulQA）

评估范式演变：固定基准 → 动态基准（防数据污染）→ LLM-as-Judge → 人类盲评（Chatbot Arena）

核心挑战：基准饱和、数据污染、评估与真实使用场景的鸿沟、多语言评估覆盖不足

HELM (Liang et al., 2023): 斯坦福大学的全面 LLM 评估框架

Chatbot Arena (Zheng et al., 2024): 基于 ELO 评分的人类盲评排行榜

Open LLM Leaderboard (HuggingFace): 开源社区标准化评估平台