Language Model

分类: NLP基础

定义

语言模型是对自然语言序列的概率分布进行建模的系统，其核心任务是估计一个词序列出现的概率，或在给定前文的条件下预测下一个词的概率分布。

自回归分解（从左到右）：

P(w_1, w_2, \dots, w_T) = \prod_{t=1}^{T} P(w_t | w_1, \dots, w_{t-1})

N-gram 近似：

P(w_t | w_1, \dots, w_{t-1}) \approx P(w_t | w_{t-n+1}, \dots, w_{t-1})

评估指标——困惑度（Perplexity）：

\text{PPL} = \exp\left( -\frac{1}{T} \sum_{t=1}^{T} \log P(w_t | w_{<t}) \right)

PPL 越低，模型对测试数据的预测越好（等价于交叉熵损失的指数形式）

N-gram 语言模型是最早的统计方法，用频率估计条件概率，受限于数据稀疏和固定窗口

神经语言模型（Bengio et al., 2003）用神经网络替代频率统计，引入分布式词表示

基于 RNN/LSTM 的语言模型可以处理变长上下文，曾是主流方案

基于 Transformer 的语言模型（GPT 系列、LLaMA）通过 self-attention 建模全局依赖，成为当前 LLM 的基础

语言模型是 Pretraining 的核心目标：自回归（GPT）用”下一个词预测”，掩码（BERT）用”填空”

大规模语言模型（LLM）展现出 In-Context Learning、Chain-of-Thought 等涌现能力

Bengio et al. (2003): “A Neural Probabilistic Language Model”，开创神经语言模型

Mikolov et al. (2010): 基于 RNN 的语言模型

Radford et al. (2018): GPT，基于 Transformer decoder 的自回归语言模型

Brown et al. (2020): GPT-3，展示大规模语言模型的 few-shot 能力