Log-Softmax

分类: 深度学习基础

Log-Softmax

定义

Softmax 的对数形式,直接输出 log 概率,数值上比先 softmax 再取 log 更稳定

数学形式

LogSoftmax(xi)=logexijexj=xilogjexj\text{LogSoftmax}(x_i) = \log\frac{e^{x_i}}{\sum_j e^{x_j}} = x_i - \log\sum_j e^{x_j}

核心要点

避免先计算 softmax 再取 log 的数值溢出

常与 NLLLoss 配合使用,等效于 CrossEntropyLoss

在 KL 蒸馏中用于 student 端

代表工作

MTP-D: MTP head 端使用 log-softmax 计算 KL 损失

相关概念

Softmax

Cross-Entropy Loss