Softmax

分类: 深度学习基础

Softmax

定义

将任意实数向量转化为概率分布的函数,输出各元素非负且和为 1,广泛用于分类输出层和注意力权重计算。

数学形式

Softmax(zi)=exp(zi)jexp(zj)\text{Softmax}(z_i) = \frac{\exp(z_i)}{\sum_{j}\exp(z_j)}

带温度参数 τ\tau 的版本(温度缩放):

pi=exp(zi/τ)jexp(zj/τ)p_i = \frac{\exp(z_i / \tau)}{\sum_{j}\exp(z_j / \tau)}

核心要点

τ<1\tau < 1(低温):分布更尖锐,强化最高置信度预测

τ>1\tau > 1(高温):分布更平滑,软化预测差异

在对比学习中温度参数是关键超参数

数值稳定性:实现时常减去最大值 max(z)\max(z)

代表工作

AMP (2026): 用温度缩放 Softmax 将特征相似度矩阵转化为预测概率,进而计算信息熵

相关概念

信息熵

余弦相似度