温度缩放
分类: 深度学习基础
温度缩放
定义
在 softmax 分布中引入温度参数 τ 来控制分布的尖锐度,τ 越小分布越集中,τ 越大分布越平滑
数学形式
pi=∑jexp(zj/τ)exp(zi/τ)
核心要点
τ→0: 退化为 argmax(one-hot)
τ→∞: 退化为均匀分布
τ=1: 标准 softmax
在知识蒸馏中用于软化 teacher 输出,在对比学习中控制相似度分布
代表工作
VLA-IAP: 使用 τ=0.01 的温度缩放计算跨模态语义注意力(高锐度)
知识蒸馏: Hinton KD 中用温度软化 logits
相关概念
Softmax
知识蒸馏
Temperature Sampling