Language Model

分类: NLP基础

Language Model

定义

语言模型是对自然语言序列的概率分布进行建模的系统,其核心任务是估计一个词序列出现的概率,或在给定前文的条件下预测下一个词的概率分布。

数学形式

自回归分解(从左到右):

P(w1,w2,,wT)=t=1TP(wtw1,,wt1)P(w_1, w_2, \dots, w_T) = \prod_{t=1}^{T} P(w_t | w_1, \dots, w_{t-1})

N-gram 近似:

P(wtw1,,wt1)P(wtwtn+1,,wt1)P(w_t | w_1, \dots, w_{t-1}) \approx P(w_t | w_{t-n+1}, \dots, w_{t-1})

评估指标——困惑度(Perplexity):

PPL=exp(1Tt=1TlogP(wtw<t))\text{PPL} = \exp\left( -\frac{1}{T} \sum_{t=1}^{T} \log P(w_t | w_{<t}) \right)

PPL 越低,模型对测试数据的预测越好(等价于交叉熵损失的指数形式)

核心要点

N-gram 语言模型是最早的统计方法,用频率估计条件概率,受限于数据稀疏和固定窗口

神经语言模型(Bengio et al., 2003)用神经网络替代频率统计,引入分布式词表示

基于 RNN/LSTM 的语言模型可以处理变长上下文,曾是主流方案

基于 Transformer 的语言模型(GPT 系列、LLaMA)通过 self-attention 建模全局依赖,成为当前 LLM 的基础

语言模型是 Pretraining 的核心目标:自回归(GPT)用”下一个词预测”,掩码(BERT)用”填空”

大规模语言模型(LLM)展现出 In-Context LearningChain-of-Thought 等涌现能力

代表工作

Bengio et al. (2003): “A Neural Probabilistic Language Model”,开创神经语言模型

Mikolov et al. (2010): 基于 RNN 的语言模型

Radford et al. (2018): GPT,基于 Transformer decoder 的自回归语言模型

Brown et al. (2020): GPT-3,展示大规模语言模型的 few-shot 能力

相关概念

Word2Vec

GloVe

RNN

LSTM

BERT

Tokenization

Pretraining

Perplexity