BERT
分类: 网络架构
BERT
定义
BERT 是 Google 提出的双向 Transformer 编码器预训练模型,通过 Masked Language Modeling (MLM) 和 Next Sentence Prediction (NSP) 在大规模文本上预训练,奠定了 NLP 预训练-微调范式
核心要点
双向注意力:与 GPT 的单向自回归不同,BERT 同时看左右上下文
基础版 BERT-base: 12 层, 768 隐藏维度, 110M 参数
BERT-large: 24 层, 1024 隐藏维度, 340M 参数
是模型压缩研究的经典基线:TinyBERT、DistilBERT、MobileBERT 等均以 BERT 为压缩目标
代表工作
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (Google, 2019)
相关概念
ViT — 将 BERT 思路迁移到视觉
知识蒸馏 — BERT 压缩的主要手段