GenEval
分类: 数据集与评估
GenEval
定义
图像生成模型的组合性评测基准,测试模型对复杂文本提示的理解和生成能力,包括对象数量、属性绑定、空间关系等
核心要点
专注于评估 text-to-image 模型的组合性理解能力(compositional generation)
评测维度包括:单对象、两对象、数量控制、颜色绑定、空间关系等
使用目标检测模型自动评分,避免人工评估的成本和不一致性
DreamLite(0.39B)在 GenEval 上达到 0.72,对端侧模型来说相当出色
代表工作
DreamLite (ByteDance, 2026): 使用 GenEval 作为主要评测基准之一