温度缩放

分类: 深度学习基础

温度缩放

定义

在 softmax 分布中引入温度参数 τ\tau 来控制分布的尖锐度,τ\tau 越小分布越集中,τ\tau 越大分布越平滑

数学形式

pi=exp(zi/τ)jexp(zj/τ)p_i = \frac{\exp(z_i / \tau)}{\sum_j \exp(z_j / \tau)}

核心要点

τ0\tau \to 0: 退化为 argmax(one-hot)

τ\tau \to \infty: 退化为均匀分布

τ=1\tau = 1: 标准 softmax

在知识蒸馏中用于软化 teacher 输出,在对比学习中控制相似度分布

代表工作

VLA-IAP: 使用 τ=0.01\tau = 0.01 的温度缩放计算跨模态语义注意力(高锐度)

知识蒸馏: Hinton KD 中用温度软化 logits

相关概念

Softmax

知识蒸馏

Temperature Sampling