WikiText-103

分类: 数据集与评估

定义

Merity et al. (2017) 发布的大规模语言建模 benchmark，包含约 1 亿 token 的英文 Wikipedia 文章

训练集约 103M tokens，验证集约 218K tokens，测试集约 246K tokens

长文档级别的上下文（vs. Penn Treebank 的句子级别）

广泛用于语言模型 perplexity 评估和模型校准

相比 Wikitext-2，规模大 100 倍

TIDE: 使用 2,000 条 WikiText-103 文本进行 router 校准

GPT-2: 语言模型评估 benchmark