FineWeb-Edu

分类: 数据集与评估

FineWeb-Edu

定义

Penedo et al. (2024) 发布的高质量教育领域网页文本数据集,经过严格质量过滤

核心要点

350B tokens 规模

专注教育类高质量内容

广泛用于 LLM 预训练研究

代表工作

MTP-D: 使用 FineWeb-Edu-350BT 进行预训练

相关概念

Multi-Token Prediction