GPT
分类: NLP基础
GPT
定义
GPT(Generative Pre-trained Transformer)是 OpenAI 提出的基于 Transformer Decoder 的自回归语言模型系列。核心思想是在大规模无标注文本上进行自回归语言模型预训练(预测下一个 token),然后通过微调或 in-context learning 适配下游任务。GPT 系列(GPT-1/2/3/4)奠定了现代大语言模型(LLM)的范式。
核心要点
自回归预训练:GPT 使用因果语言模型目标 ,通过 causal mask 确保每个位置只能看到之前的 token,这使其天然适合文本生成任务
GPT-1 → GPT-2 的范式转换:GPT-1 (2018) 仍需微调适配下游任务;GPT-2 (2019) 发现足够大的语言模型可以 zero-shot 完成多种任务(“Language Models are Unsupervised Multitask Learners”),开启了 “预训练即一切” 的思路
Scaling Law:GPT-3 (2020) 以 175B 参数证明了 in-context learning 的涌现能力——只需在 prompt 中提供几个示例(few-shot),无需任何梯度更新即可完成新任务
与 BERT 的对比:BERT 使用双向编码器 + MLM 目标,擅长理解任务(分类、抽取);GPT 使用单向解码器 + 自回归目标,擅长生成任务。后续发展表明,足够大的 GPT 在理解任务上也能达到甚至超越 BERT 级模型
架构细节:标准 Transformer Decoder Block 堆叠,Pre-LayerNorm(GPT-2 起)、GELU 激活函数、BPE tokenizer。GPT-3 后加入稀疏注意力等效率优化
代表工作
Radford et al. (2018): Improving Language Understanding by Generative Pre-Training (GPT-1)
Radford et al. (2019): Language Models are Unsupervised Multitask Learners (GPT-2)
Brown et al. (2020): Language Models are Few-Shot Learners (GPT-3)
OpenAI (2023): GPT-4 Technical Report