Machine Translation

分类: NLP基础

Machine Translation

定义

机器翻译(Machine Translation)是将文本从一种自然语言自动翻译为另一种语言的任务。神经机器翻译(NMT)使用端到端神经网络直接建模翻译概率 P(yx)P(y|x),取代了统计机器翻译(SMT)的复杂管道,是 CS224N 贯穿始终的核心应用场景

数学形式

翻译目标:y^=argmaxyP(yx)=argmaxyt=1TP(yty<t,x)\hat{y} = \arg\max_y P(y | x) = \arg\max_y \prod_{t=1}^{T'} P(y_t | y_{<t}, x)

注意力机制下的 NMT: αti=exp(eti)j=1Texp(etj),ct=i=1Tαtihi\alpha_{ti} = \frac{\exp(e_{ti})}{\sum_{j=1}^{T}\exp(e_{tj})}, \quad c_t = \sum_{i=1}^{T}\alpha_{ti}h_i P(yty<t,x)=softmax(Ws[st;ct])P(y_t | y_{<t}, x) = \text{softmax}(W_s \cdot [s_t; c_t])

Beam Search 解码:维护 kk 个候选序列,每步扩展并保留 top-kk

核心要点

三代范式演进

  • (1) 统计机器翻译(SMT, ~2000-2015):基于短语的翻译模型 + 语言模型 + 解码器,需要大量特征工程
  • (2) 注意力 NMT(2015-2017):Seq2Seq + Attention,Bahdanau/Luong 注意力机制解决长序列翻译
  • (3) Transformer NMT(2017-至今):Attention Is All You Need,并行计算 + 自注意力,成为当前标准

关键技术:子词分词(BPE/SentencePiece)解决 OOV 问题、Beam Search 提升解码质量、Back-translation 增强训练数据

多语言翻译:单模型翻译多语言对(mBART、M2M-100),通过语言 token 指定目标语言

LLM 时代:GPT-4、Claude 等通用模型在翻译任务上已接近甚至超越专用 NMT 系统,尤其在低资源语言和翻译风格控制上

评估指标:BLEU(主流)、METEOR、COMET、人类评估

CS224N 以 MT 为贯穿案例讲解 Seq2Seq、Attention、Transformer 的演进

代表工作

Bahdanau et al., 2015: Neural Machine Translation by Jointly Learning to Align and Translate

Vaswani et al., 2017: Attention Is All You Need

Sennrich et al., 2016: Neural Machine Translation of Rare Words with Subword Units

相关概念

Seq2Seq

Encoder-Decoder

BLEU

SentencePiece