The Illustrated BERT, ELMo, and co.
作者: Jay Alammar 年份: 2018 会议: Blog 分类: 网络架构
论文笔记:Illustrated-BERT
一句话总结
- 通过可视化图解梳理从 Word2Vec 到 ELMo 再到 BERT 的预训练语言模型演进历程,清晰展示上下文词表示(contextual word representations)如何革新 NLP。
核心贡献
- 演进脉络:图解 Word2Vec(静态词向量)→ ELMo(双向 LSTM 上下文向量)→ BERT(双向 Transformer 上下文向量)的技术演进,帮助读者建立清晰的知识脉络
- BERT 预训练任务:直观展示 Masked Language Model (MLM) 和 Next Sentence Prediction (NSP) 两个预训练目标的工作原理
- Fine-tuning 范式:图解 BERT 如何通过简单的 fine-tuning 适配各类下游任务(分类、NER、QA),形成 “pretrain + fine-tune” 的 NLP 新范式
- ELMo vs BERT:对比 ELMo 的特征提取(feature-based)方式与 BERT 的微调(fine-tuning)方式,说明后者的灵活性和优越性
相关概念
- BERT
- ELMo
- Masked Language Model
- 预训练语言模型
- Fine-tuning
- 上下文词向量