GenEval

分类: 数据集与评估

GenEval

定义

图像生成模型的组合性评测基准,测试模型对复杂文本提示的理解和生成能力,包括对象数量、属性绑定、空间关系等

核心要点

专注于评估 text-to-image 模型的组合性理解能力(compositional generation)

评测维度包括:单对象、两对象、数量控制、颜色绑定、空间关系等

使用目标检测模型自动评分,避免人工评估的成本和不一致性

DreamLite(0.39B)在 GenEval 上达到 0.72,对端侧模型来说相当出色

代表工作

DreamLite (ByteDance, 2026): 使用 GenEval 作为主要评测基准之一

相关概念

FLUX

SDXL