Language Model
分类: NLP基础
Language Model
定义
语言模型是对自然语言序列的概率分布进行建模的系统,其核心任务是估计一个词序列出现的概率,或在给定前文的条件下预测下一个词的概率分布。
数学形式
自回归分解(从左到右):
N-gram 近似:
评估指标——困惑度(Perplexity):
PPL 越低,模型对测试数据的预测越好(等价于交叉熵损失的指数形式)
核心要点
N-gram 语言模型是最早的统计方法,用频率估计条件概率,受限于数据稀疏和固定窗口
神经语言模型(Bengio et al., 2003)用神经网络替代频率统计,引入分布式词表示
基于 RNN/LSTM 的语言模型可以处理变长上下文,曾是主流方案
基于 Transformer 的语言模型(GPT 系列、LLaMA)通过 self-attention 建模全局依赖,成为当前 LLM 的基础
语言模型是 Pretraining 的核心目标:自回归(GPT)用”下一个词预测”,掩码(BERT)用”填空”
大规模语言模型(LLM)展现出 In-Context Learning、Chain-of-Thought 等涌现能力
代表工作
Bengio et al. (2003): “A Neural Probabilistic Language Model”,开创神经语言模型
Mikolov et al. (2010): 基于 RNN 的语言模型
Radford et al. (2018): GPT,基于 Transformer decoder 的自回归语言模型
Brown et al. (2020): GPT-3,展示大规模语言模型的 few-shot 能力