ROUGE
分类: NLP基础
ROUGE
定义
ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是 Lin (2004) 提出的一组文本摘要自动评估指标,通过计算候选摘要与参考摘要之间的 n-gram 召回率来衡量摘要质量,与 BLEU 互补(BLEU 侧重精度,ROUGE 侧重召回率)
数学形式
ROUGE-N(n-gram 召回率):
ROUGE-N=∑S∈Refs∑n-gram∈SCount(n-gram)∑S∈Refs∑n-gram∈SCountmatch(n-gram)
ROUGE-L(最长公共子序列):
ROUGE-L=Flcs=Rlcs+β2⋅Plcs(1+β2)⋅Rlcs⋅Plcs
其中 Rlcs=LCS(X,Y)/∣X∣,Plcs=LCS(X,Y)/∣Y∣
核心要点
ROUGE 家族:
- ROUGE-1:unigram 召回率,衡量词汇覆盖
- ROUGE-2:bigram 召回率,衡量短语匹配
- ROUGE-L:基于最长公共子序列(LCS),无需连续匹配,捕捉句子级结构相似度
- ROUGE-S:skip-bigram,允许 bigram 中间插入其他词
与 BLEU 的对比:BLEU 以精度为核心(翻译场景),ROUGE 以召回率为核心(摘要场景——关注参考内容被覆盖了多少)
F1 报告:实践中通常报告 ROUGE 的 F1 值(precision 和 recall 的调和平均),而非单纯的 recall
局限性:与 BLEU 类似,基于表面词匹配,无法捕捉语义等价的不同表述
广泛用于文本摘要(CNN/DailyMail、XSum)、对话生成等任务的评估
CS224N 在文本生成评估中与 BLEU 并列讲授
代表工作
ROUGE: A Package for Automatic Evaluation of Summaries (Lin, 2004)
BERTScore: Evaluating Text Generation with BERT (Zhang et al., 2020)
相关概念
BLEU
Machine Translation