CS224N / 学习笔记

BERT

分类: 网络架构

BERT

定义

BERT 是 Google 提出的双向 Transformer 编码器预训练模型，通过 Masked Language Modeling (MLM) 和 Next Sentence Prediction (NSP) 在大规模文本上预训练，奠定了 NLP 预训练-微调范式

核心要点

双向注意力：与 GPT 的单向自回归不同，BERT 同时看左右上下文

基础版 BERT-base: 12 层, 768 隐藏维度, 110M 参数

BERT-large: 24 层, 1024 隐藏维度, 340M 参数

是模型压缩研究的经典基线：TinyBERT、DistilBERT、MobileBERT 等均以 BERT 为压缩目标

代表工作

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (Google, 2019)

相关概念

ViT — 将 BERT 思路迁移到视觉

知识蒸馏 — BERT 压缩的主要手段