GPT

分类: NLP基础

GPT

定义

GPT（Generative Pre-trained Transformer）是 OpenAI 提出的基于 Transformer Decoder 的自回归语言模型系列。核心思想是在大规模无标注文本上进行自回归语言模型预训练（预测下一个 token），然后通过微调或 in-context learning 适配下游任务。GPT 系列（GPT-1/2/3/4）奠定了现代大语言模型（LLM）的范式。

核心要点

自回归预训练：GPT 使用因果语言模型目标 $\mathcal{L} = -\sum_t \log P(x_t | x_{<t})$ ，通过 causal mask 确保每个位置只能看到之前的 token，这使其天然适合文本生成任务

GPT-1 → GPT-2 的范式转换：GPT-1 (2018) 仍需微调适配下游任务；GPT-2 (2019) 发现足够大的语言模型可以 zero-shot 完成多种任务（“Language Models are Unsupervised Multitask Learners”），开启了 “预训练即一切” 的思路

Scaling Law：GPT-3 (2020) 以 175B 参数证明了 in-context learning 的涌现能力——只需在 prompt 中提供几个示例（few-shot），无需任何梯度更新即可完成新任务

与 BERT 的对比：BERT 使用双向编码器 + MLM 目标，擅长理解任务（分类、抽取）；GPT 使用单向解码器 + 自回归目标，擅长生成任务。后续发展表明，足够大的 GPT 在理解任务上也能达到甚至超越 BERT 级模型

架构细节：标准 Transformer Decoder Block 堆叠，Pre-LayerNorm（GPT-2 起）、GELU 激活函数、BPE tokenizer。GPT-3 后加入稀疏注意力等效率优化

代表工作

Radford et al. (2018): Improving Language Understanding by Generative Pre-Training (GPT-1)

Radford et al. (2019): Language Models are Unsupervised Multitask Learners (GPT-2)

Brown et al. (2020): Language Models are Few-Shot Learners (GPT-3)

OpenAI (2023): GPT-4 Technical Report

GPT

GPT

定义

核心要点

代表工作

相关概念