Softmax
分类: 深度学习基础
Softmax
定义
将任意实数向量转化为概率分布的函数,输出各元素非负且和为 1,广泛用于分类输出层和注意力权重计算。
数学形式
Softmax(zi)=∑jexp(zj)exp(zi)
带温度参数 τ 的版本(温度缩放):
pi=∑jexp(zj/τ)exp(zi/τ)
核心要点
τ<1(低温):分布更尖锐,强化最高置信度预测
τ>1(高温):分布更平滑,软化预测差异
在对比学习中温度参数是关键超参数
数值稳定性:实现时常减去最大值 max(z)
代表工作
AMP (2026): 用温度缩放 Softmax 将特征相似度矩阵转化为预测概率,进而计算信息熵
相关概念
信息熵
余弦相似度