The Illustrated BERT, ELMo, and co.

作者: Jay Alammar 年份: 2018 会议: Blog 分类: 网络架构

论文笔记:Illustrated-BERT

一句话总结

  • 通过可视化图解梳理从 Word2Vec 到 ELMo 再到 BERT 的预训练语言模型演进历程,清晰展示上下文词表示(contextual word representations)如何革新 NLP。

核心贡献

  • 演进脉络:图解 Word2Vec(静态词向量)→ ELMo(双向 LSTM 上下文向量)→ BERT(双向 Transformer 上下文向量)的技术演进,帮助读者建立清晰的知识脉络
  • BERT 预训练任务:直观展示 Masked Language Model (MLM) 和 Next Sentence Prediction (NSP) 两个预训练目标的工作原理
  • Fine-tuning 范式:图解 BERT 如何通过简单的 fine-tuning 适配各类下游任务(分类、NER、QA),形成 “pretrain + fine-tune” 的 NLP 新范式
  • ELMo vs BERT:对比 ELMo 的特征提取(feature-based)方式与 BERT 的微调(fine-tuning)方式,说明后者的灵活性和优越性

相关概念

  • BERT
  • ELMo
  • Masked Language Model
  • 预训练语言模型
  • Fine-tuning
  • 上下文词向量