Machine Translation

分类: NLP基础

Machine Translation

定义

机器翻译（Machine Translation）是将文本从一种自然语言自动翻译为另一种语言的任务。神经机器翻译（NMT）使用端到端神经网络直接建模翻译概率 $P(y|x)$ ，取代了统计机器翻译（SMT）的复杂管道，是 CS224N 贯穿始终的核心应用场景

数学形式

翻译目标： $\hat{y} = \arg\max_y P(y | x) = \arg\max_y \prod_{t=1}^{T'} P(y_t | y_{<t}, x)$

注意力机制下的 NMT： $\alpha_{ti} = \frac{\exp(e_{ti})}{\sum_{j=1}^{T}\exp(e_{tj})}, \quad c_t = \sum_{i=1}^{T}\alpha_{ti}h_i$ $P(y_t | y_{<t}, x) = \text{softmax}(W_s \cdot [s_t; c_t])$

Beam Search 解码：维护 $k$ 个候选序列，每步扩展并保留 top- $k$

核心要点

三代范式演进：

(1) 统计机器翻译（SMT, ~2000-2015）：基于短语的翻译模型 + 语言模型 + 解码器，需要大量特征工程
(2) 注意力 NMT（2015-2017）：Seq2Seq + Attention，Bahdanau/Luong 注意力机制解决长序列翻译
(3) Transformer NMT（2017-至今）：Attention Is All You Need，并行计算 + 自注意力，成为当前标准

关键技术：子词分词（BPE/SentencePiece）解决 OOV 问题、Beam Search 提升解码质量、Back-translation 增强训练数据

多语言翻译：单模型翻译多语言对（mBART、M2M-100），通过语言 token 指定目标语言

LLM 时代：GPT-4、Claude 等通用模型在翻译任务上已接近甚至超越专用 NMT 系统，尤其在低资源语言和翻译风格控制上

评估指标：BLEU（主流）、METEOR、COMET、人类评估

CS224N 以 MT 为贯穿案例讲解 Seq2Seq、Attention、Transformer 的演进

代表工作

Bahdanau et al., 2015: Neural Machine Translation by Jointly Learning to Align and Translate

Vaswani et al., 2017: Attention Is All You Need

Sennrich et al., 2016: Neural Machine Translation of Rare Words with Subword Units

Machine Translation

Machine Translation

定义

数学形式

核心要点

代表工作

相关概念