Cross-Entropy Loss

分类: 深度学习基础

Cross-Entropy Loss

定义

衡量预测分布与真实标签之间差异的标准分类损失函数

数学形式

CE(y,y^)=c=1Cyclogy^c\text{CE}(y, \hat{y}) = -\sum_{c=1}^{C} y_c \log \hat{y}_c

核心要点

分类任务的默认损失函数

等价于真实分布与预测分布的 KL 散度加上常数项

在语言模型中用于 next-token prediction

代表工作

MTP-D: MTP head 的基础对齐损失

相关概念

KL Divergence

Softmax