Wikitext-2

分类: 数据集与评估

type:: concept aliases:: WikiText-2, Wiki PPL

  • Wikitext-2

  • 定义

  • 基于 Wikipedia 文章的语言建模基准数据集,常用于评估 LLM 的 perplexity

  • 核心要点

  • 标准的 LLM 量化评估数据集,报告 perplexity(越低越好)

  • 几乎所有 LLM 量化论文都以 Wikitext-2 perplexity 作为主要指标

  • 测试集约 245K tokens

  • 代表工作

  • LLVQ: Llama-2 7B 2-bit finetuned Wiki=5.48(SOTA)

  • GPTQ: 标准化了以 Wikitext-2 评估量化 LLM 的实践

  • Merity et al. (2017): 提出 WikiText 基准

  • 相关概念

  • MMLU

  • PTQ