CS224N / 学习笔记

#BERT #ELMo #预训练 #上下文词向量 #可视化教程

The Illustrated BERT, ELMo, and co.

作者: Jay Alammar 年份: 2018 会议: Blog 分类: 网络架构

论文笔记：Illustrated-BERT

一句话总结

通过可视化图解梳理从 Word2Vec 到 ELMo 再到 BERT 的预训练语言模型演进历程，清晰展示上下文词表示（contextual word representations）如何革新 NLP。

核心贡献

演进脉络：图解 Word2Vec（静态词向量）→ ELMo（双向 LSTM 上下文向量）→ BERT（双向 Transformer 上下文向量）的技术演进，帮助读者建立清晰的知识脉络
BERT 预训练任务：直观展示 Masked Language Model (MLM) 和 Next Sentence Prediction (NSP) 两个预训练目标的工作原理
Fine-tuning 范式：图解 BERT 如何通过简单的 fine-tuning 适配各类下游任务（分类、NER、QA），形成 “pretrain + fine-tune” 的 NLP 新范式
ELMo vs BERT：对比 ELMo 的特征提取（feature-based）方式与 BERT 的微调（fine-tuning）方式，说明后者的灵活性和优越性

相关概念

BERT
ELMo
Masked Language Model
预训练语言模型
Fine-tuning
上下文词向量