GPT

分类: NLP基础

GPT

定义

GPT(Generative Pre-trained Transformer)是 OpenAI 提出的基于 Transformer Decoder 的自回归语言模型系列。核心思想是在大规模无标注文本上进行自回归语言模型预训练(预测下一个 token),然后通过微调或 in-context learning 适配下游任务。GPT 系列(GPT-1/2/3/4)奠定了现代大语言模型(LLM)的范式。

核心要点

自回归预训练:GPT 使用因果语言模型目标 L=tlogP(xtx<t)\mathcal{L} = -\sum_t \log P(x_t | x_{<t}),通过 causal mask 确保每个位置只能看到之前的 token,这使其天然适合文本生成任务

GPT-1 → GPT-2 的范式转换:GPT-1 (2018) 仍需微调适配下游任务;GPT-2 (2019) 发现足够大的语言模型可以 zero-shot 完成多种任务(“Language Models are Unsupervised Multitask Learners”),开启了 “预训练即一切” 的思路

Scaling Law:GPT-3 (2020) 以 175B 参数证明了 in-context learning 的涌现能力——只需在 prompt 中提供几个示例(few-shot),无需任何梯度更新即可完成新任务

与 BERT 的对比:BERT 使用双向编码器 + MLM 目标,擅长理解任务(分类、抽取);GPT 使用单向解码器 + 自回归目标,擅长生成任务。后续发展表明,足够大的 GPT 在理解任务上也能达到甚至超越 BERT 级模型

架构细节:标准 Transformer Decoder Block 堆叠,Pre-LayerNorm(GPT-2 起)、GELU 激活函数、BPE tokenizer。GPT-3 后加入稀疏注意力等效率优化

代表工作

Radford et al. (2018): Improving Language Understanding by Generative Pre-Training (GPT-1)

Radford et al. (2019): Language Models are Unsupervised Multitask Learners (GPT-2)

Brown et al. (2020): Language Models are Few-Shot Learners (GPT-3)

OpenAI (2023): GPT-4 Technical Report

相关概念

Transformer

BERT

Fine-tuning

Sentiment Analysis

Activation Function