Machine Translation
分类: NLP基础
Machine Translation
定义
机器翻译(Machine Translation)是将文本从一种自然语言自动翻译为另一种语言的任务。神经机器翻译(NMT)使用端到端神经网络直接建模翻译概率 ,取代了统计机器翻译(SMT)的复杂管道,是 CS224N 贯穿始终的核心应用场景
数学形式
翻译目标:
注意力机制下的 NMT:
Beam Search 解码:维护 个候选序列,每步扩展并保留 top-
核心要点
三代范式演进:
- (1) 统计机器翻译(SMT, ~2000-2015):基于短语的翻译模型 + 语言模型 + 解码器,需要大量特征工程
- (2) 注意力 NMT(2015-2017):Seq2Seq + Attention,Bahdanau/Luong 注意力机制解决长序列翻译
- (3) Transformer NMT(2017-至今):Attention Is All You Need,并行计算 + 自注意力,成为当前标准
关键技术:子词分词(BPE/SentencePiece)解决 OOV 问题、Beam Search 提升解码质量、Back-translation 增强训练数据
多语言翻译:单模型翻译多语言对(mBART、M2M-100),通过语言 token 指定目标语言
LLM 时代:GPT-4、Claude 等通用模型在翻译任务上已接近甚至超越专用 NMT 系统,尤其在低资源语言和翻译风格控制上
评估指标:BLEU(主流)、METEOR、COMET、人类评估
CS224N 以 MT 为贯穿案例讲解 Seq2Seq、Attention、Transformer 的演进
代表工作
Bahdanau et al., 2015: Neural Machine Translation by Jointly Learning to Align and Translate
Vaswani et al., 2017: Attention Is All You Need
Sennrich et al., 2016: Neural Machine Translation of Rare Words with Subword Units