ROUGE

分类: NLP基础

ROUGE

定义

ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是 Lin (2004) 提出的一组文本摘要自动评估指标,通过计算候选摘要与参考摘要之间的 n-gram 召回率来衡量摘要质量,与 BLEU 互补(BLEU 侧重精度,ROUGE 侧重召回率)

数学形式

ROUGE-N(n-gram 召回率): ROUGE-N=SRefsn-gramSCountmatch(n-gram)SRefsn-gramSCount(n-gram)\text{ROUGE-N} = \frac{\sum_{S \in \text{Refs}}\sum_{\text{n-gram} \in S} \text{Count}_{\text{match}}(\text{n-gram})}{\sum_{S \in \text{Refs}}\sum_{\text{n-gram} \in S} \text{Count}(\text{n-gram})}

ROUGE-L(最长公共子序列): ROUGE-L=Flcs=(1+β2)RlcsPlcsRlcs+β2Plcs\text{ROUGE-L} = F_{\text{lcs}} = \frac{(1+\beta^2) \cdot R_{\text{lcs}} \cdot P_{\text{lcs}}}{R_{\text{lcs}} + \beta^2 \cdot P_{\text{lcs}}}

其中 Rlcs=LCS(X,Y)/XR_{\text{lcs}} = \text{LCS}(X,Y)/|X|Plcs=LCS(X,Y)/YP_{\text{lcs}} = \text{LCS}(X,Y)/|Y|

核心要点

ROUGE 家族

  • ROUGE-1:unigram 召回率,衡量词汇覆盖
  • ROUGE-2:bigram 召回率,衡量短语匹配
  • ROUGE-L:基于最长公共子序列(LCS),无需连续匹配,捕捉句子级结构相似度
  • ROUGE-S:skip-bigram,允许 bigram 中间插入其他词

与 BLEU 的对比:BLEU 以精度为核心(翻译场景),ROUGE 以召回率为核心(摘要场景——关注参考内容被覆盖了多少)

F1 报告:实践中通常报告 ROUGE 的 F1 值(precision 和 recall 的调和平均),而非单纯的 recall

局限性:与 BLEU 类似,基于表面词匹配,无法捕捉语义等价的不同表述

广泛用于文本摘要(CNN/DailyMail、XSum)、对话生成等任务的评估

CS224N 在文本生成评估中与 BLEU 并列讲授

代表工作

ROUGE: A Package for Automatic Evaluation of Summaries (Lin, 2004)

BERTScore: Evaluating Text Generation with BERT (Zhang et al., 2020)

相关概念

BLEU

Machine Translation