WikiText-103

分类: 数据集与评估

WikiText-103

定义

Merity et al. (2017) 发布的大规模语言建模 benchmark,包含约 1 亿 token 的英文 Wikipedia 文章

核心要点

训练集约 103M tokens,验证集约 218K tokens,测试集约 246K tokens

长文档级别的上下文(vs. Penn Treebank 的句子级别)

广泛用于语言模型 perplexity 评估和模型校准

相比 Wikitext-2,规模大 100 倍

代表工作

TIDE: 使用 2,000 条 WikiText-103 文本进行 router 校准

GPT-2: 语言模型评估 benchmark

相关概念

Wikitext-2

MMLU