CS224N / 学习笔记

GenEval

分类: 数据集与评估

GenEval

定义

图像生成模型的组合性评测基准，测试模型对复杂文本提示的理解和生成能力，包括对象数量、属性绑定、空间关系等

核心要点

专注于评估 text-to-image 模型的组合性理解能力（compositional generation）

评测维度包括：单对象、两对象、数量控制、颜色绑定、空间关系等

使用目标检测模型自动评分，避免人工评估的成本和不一致性

DreamLite（0.39B）在 GenEval 上达到 0.72，对端侧模型来说相当出色

代表工作

DreamLite (ByteDance, 2026): 使用 GenEval 作为主要评测基准之一

相关概念