CS224N / 学习笔记

MTEB

分类: 数据集与评估

MTEB

定义

MTEB（Massive Text Embedding Benchmark）是一个大规模文本嵌入模型评估基准，覆盖分类、聚类、对匹配、检索、重排序、语义文本相似度、摘要等 7 大任务类型

核心要点

包含 58 个数据集，涵盖 112 种语言

评估维度全面：单一嵌入模型在多种下游任务上的综合表现

排行榜是评估嵌入模型的事实标准（huggingface.co/spaces/mteb/leaderboard）

多语言扩展 MTEB-multilingual 进一步覆盖低资源语言

代表工作

Muennighoff et al., “MTEB: Massive Text Embedding Benchmark” (EACL 2023)

相关概念

MMLU — LLM 知识评估基准

ImageNet — 视觉领域的对应评估标准