BLEU
分类: NLP基础
BLEU
定义
BLEU(Bilingual Evaluation Understudy)是 Papineni et al. (2002) 提出的机器翻译自动评估指标,通过计算候选翻译与参考翻译之间的 n-gram 精度(precision)来衡量翻译质量,是 NLP 生成任务中最广泛使用的自动评估指标之一
数学形式
其中 为修正 n-gram 精度(clipped precision):
简短惩罚(Brevity Penalty):
为参考译文长度, 为候选译文长度;(通常 )
核心要点
修正精度(Clipped Precision):每个 n-gram 的匹配次数不超过其在参考译文中出现的最大次数,防止”the the the…”获得高分
简短惩罚(BP):防止极短翻译通过高精度作弊——翻译越短于参考,惩罚越重
标准设置:BLEU-4 使用 1-gram 到 4-gram 的几何平均,兼顾词汇匹配和流畅度
局限性:(1) 只衡量精度不考虑召回率;(2) 对同义词替换不敏感;(3) 不考虑句子结构;(4) 与人类评判的相关性在句子级别较差
改进指标:METEOR(考虑同义词和召回率)、BERTScore(基于上下文嵌入相似度)、COMET(基于学习的评估)
CS224N 在机器翻译和文本生成评估部分的核心指标
代表工作
BLEU: A Method for Automatic Evaluation of Machine Translation (Papineni et al., 2002)
BERTScore: Evaluating Text Generation with BERT (Zhang et al., 2020)