ROUGE

分类: NLP基础

ROUGE

定义

ROUGE（Recall-Oriented Understudy for Gisting Evaluation）是 Lin (2004) 提出的一组文本摘要自动评估指标，通过计算候选摘要与参考摘要之间的 n-gram 召回率来衡量摘要质量，与 BLEU 互补（BLEU 侧重精度，ROUGE 侧重召回率）

数学形式

ROUGE-N（n-gram 召回率）： $\text{ROUGE-N} = \frac{\sum_{S \in \text{Refs}}\sum_{\text{n-gram} \in S} \text{Count}_{\text{match}}(\text{n-gram})}{\sum_{S \in \text{Refs}}\sum_{\text{n-gram} \in S} \text{Count}(\text{n-gram})}$

ROUGE-L（最长公共子序列）： $\text{ROUGE-L} = F_{\text{lcs}} = \frac{(1+\beta^2) \cdot R_{\text{lcs}} \cdot P_{\text{lcs}}}{R_{\text{lcs}} + \beta^2 \cdot P_{\text{lcs}}}$

其中 $R_{\text{lcs}} = \text{LCS}(X,Y)/|X|$ ， $P_{\text{lcs}} = \text{LCS}(X,Y)/|Y|$

核心要点

ROUGE 家族：

ROUGE-1：unigram 召回率，衡量词汇覆盖
ROUGE-2：bigram 召回率，衡量短语匹配
ROUGE-L：基于最长公共子序列（LCS），无需连续匹配，捕捉句子级结构相似度
ROUGE-S：skip-bigram，允许 bigram 中间插入其他词

与 BLEU 的对比：BLEU 以精度为核心（翻译场景），ROUGE 以召回率为核心（摘要场景——关注参考内容被覆盖了多少）

F1 报告：实践中通常报告 ROUGE 的 F1 值（precision 和 recall 的调和平均），而非单纯的 recall

局限性：与 BLEU 类似，基于表面词匹配，无法捕捉语义等价的不同表述

广泛用于文本摘要（CNN/DailyMail、XSum）、对话生成等任务的评估

CS224N 在文本生成评估中与 BLEU 并列讲授

代表工作

ROUGE: A Package for Automatic Evaluation of Summaries (Lin, 2004)

BERTScore: Evaluating Text Generation with BERT (Zhang et al., 2020)

ROUGE

ROUGE

定义

数学形式

核心要点

代表工作

相关概念