WikiText-103
分类: 数据集与评估
WikiText-103
定义
Merity et al. (2017) 发布的大规模语言建模 benchmark,包含约 1 亿 token 的英文 Wikipedia 文章
核心要点
训练集约 103M tokens,验证集约 218K tokens,测试集约 246K tokens
长文档级别的上下文(vs. Penn Treebank 的句子级别)
广泛用于语言模型 perplexity 评估和模型校准
相比 Wikitext-2,规模大 100 倍
代表工作
TIDE: 使用 2,000 条 WikiText-103 文本进行 router 校准
GPT-2: 语言模型评估 benchmark