Wikitext-2
分类: 数据集与评估
type:: concept
aliases:: WikiText-2, Wiki PPL
-
Wikitext-2
-
定义
-
基于 Wikipedia 文章的语言建模基准数据集,常用于评估 LLM 的 perplexity
-
核心要点
-
标准的 LLM 量化评估数据集,报告 perplexity(越低越好)
-
几乎所有 LLM 量化论文都以 Wikitext-2 perplexity 作为主要指标
-
测试集约 245K tokens
-
代表工作
-
LLVQ: Llama-2 7B 2-bit finetuned Wiki=5.48(SOTA)
-
GPTQ: 标准化了以 Wikitext-2 评估量化 LLM 的实践
-
Merity et al. (2017): 提出 WikiText 基准
-
相关概念
-
MMLU
-
PTQ