Log-Softmax
分类: 深度学习基础
Log-Softmax
定义
Softmax 的对数形式,直接输出 log 概率,数值上比先 softmax 再取 log 更稳定
数学形式
核心要点
避免先计算 softmax 再取 log 的数值溢出
常与 NLLLoss 配合使用,等效于 CrossEntropyLoss
在 KL 蒸馏中用于 student 端
代表工作
MTP-D: MTP head 端使用 log-softmax 计算 KL 损失
分类: 深度学习基础
Softmax 的对数形式,直接输出 log 概率,数值上比先 softmax 再取 log 更稳定
避免先计算 softmax 再取 log 的数值溢出
常与 NLLLoss 配合使用,等效于 CrossEntropyLoss
在 KL 蒸馏中用于 student 端
MTP-D: MTP head 端使用 log-softmax 计算 KL 损失