BLEU

分类: NLP基础

BLEU

定义

BLEU（Bilingual Evaluation Understudy）是 Papineni et al. (2002) 提出的机器翻译自动评估指标，通过计算候选翻译与参考翻译之间的 n-gram 精度（precision）来衡量翻译质量，是 NLP 生成任务中最广泛使用的自动评估指标之一

数学形式

$\text{BLEU} = \text{BP} \cdot \exp\left(\sum_{n=1}^{N} w_n \log p_n\right)$

其中 $p_n$ 为修正 n-gram 精度（clipped precision）： $p_n = \frac{\sum_{C \in \text{Candidates}}\sum_{\text{n-gram} \in C} \text{Count}_{\text{clip}}(\text{n-gram})}{\sum_{C \in \text{Candidates}}\sum_{\text{n-gram} \in C} \text{Count}(\text{n-gram})}$

简短惩罚（Brevity Penalty）： $\text{BP} = \min\left(1, \exp\left(1 - \frac{r}{c}\right)\right)$

$r$ 为参考译文长度， $c$ 为候选译文长度； $w_n = 1/N$ （通常 $N=4$ ）

核心要点

修正精度（Clipped Precision）：每个 n-gram 的匹配次数不超过其在参考译文中出现的最大次数，防止”the the the…”获得高分

简短惩罚（BP）：防止极短翻译通过高精度作弊——翻译越短于参考，惩罚越重

标准设置：BLEU-4 使用 1-gram 到 4-gram 的几何平均，兼顾词汇匹配和流畅度

局限性：(1) 只衡量精度不考虑召回率；(2) 对同义词替换不敏感；(3) 不考虑句子结构；(4) 与人类评判的相关性在句子级别较差

改进指标：METEOR（考虑同义词和召回率）、BERTScore（基于上下文嵌入相似度）、COMET（基于学习的评估）

CS224N 在机器翻译和文本生成评估部分的核心指标

代表工作

BLEU: A Method for Automatic Evaluation of Machine Translation (Papineni et al., 2002)

BERTScore: Evaluating Text Generation with BERT (Zhang et al., 2020)

BLEU

BLEU

定义

数学形式

核心要点

代表工作

相关概念