perplexity

分类: 数据集与评估

Perplexity

定义

衡量语言模型预测质量的指标,等价于模型在测试集上的指数化平均负对数似然

数学形式

PPL=exp(1Ni=1Nlogp(xix<i))\text{PPL} = \exp\left(-\frac{1}{N}\sum_{i=1}^{N} \log p(x_i | x_{<i})\right)

核心要点

值越低说明模型预测越好

只适用于生成/语言建模任务的评估

是全词表上的期望度量,无法区分任务相关子空间的行为

常用于评估 LLM 压缩后的质量保持情况

代表工作

Pruning-on-Representations: 指出 perplexity 无法区分剪枝对不同表征空间的差异化影响

相关概念

交叉熵

KL散度

自回归解码