BLEU

分类: NLP基础

BLEU

定义

BLEU(Bilingual Evaluation Understudy)是 Papineni et al. (2002) 提出的机器翻译自动评估指标,通过计算候选翻译与参考翻译之间的 n-gram 精度(precision)来衡量翻译质量,是 NLP 生成任务中最广泛使用的自动评估指标之一

数学形式

BLEU=BPexp(n=1Nwnlogpn)\text{BLEU} = \text{BP} \cdot \exp\left(\sum_{n=1}^{N} w_n \log p_n\right)

其中 pnp_n 为修正 n-gram 精度(clipped precision): pn=CCandidatesn-gramCCountclip(n-gram)CCandidatesn-gramCCount(n-gram)p_n = \frac{\sum_{C \in \text{Candidates}}\sum_{\text{n-gram} \in C} \text{Count}_{\text{clip}}(\text{n-gram})}{\sum_{C \in \text{Candidates}}\sum_{\text{n-gram} \in C} \text{Count}(\text{n-gram})}

简短惩罚(Brevity Penalty):BP=min(1,exp(1rc))\text{BP} = \min\left(1, \exp\left(1 - \frac{r}{c}\right)\right)

rr 为参考译文长度,cc 为候选译文长度;wn=1/Nw_n = 1/N(通常 N=4N=4

核心要点

修正精度(Clipped Precision):每个 n-gram 的匹配次数不超过其在参考译文中出现的最大次数,防止”the the the…”获得高分

简短惩罚(BP):防止极短翻译通过高精度作弊——翻译越短于参考,惩罚越重

标准设置:BLEU-4 使用 1-gram 到 4-gram 的几何平均,兼顾词汇匹配和流畅度

局限性:(1) 只衡量精度不考虑召回率;(2) 对同义词替换不敏感;(3) 不考虑句子结构;(4) 与人类评判的相关性在句子级别较差

改进指标:METEOR(考虑同义词和召回率)、BERTScore(基于上下文嵌入相似度)、COMET(基于学习的评估)

CS224N 在机器翻译和文本生成评估部分的核心指标

代表工作

BLEU: A Method for Automatic Evaluation of Machine Translation (Papineni et al., 2002)

BERTScore: Evaluating Text Generation with BERT (Zhang et al., 2020)

相关概念

ROUGE

Machine Translation