Rényi 熵

分类: 基础理论

Rényi 熵

定义

Rényi 熵是 Shannon 熵 的一族推广,由 Alfréd Rényi 于 1961 年提出,通过阶参数 nn 控制对概率分布不同特征的敏感度。

数学形式

Hn(X)=11nlog(i=1Npin)H_n(X) = \frac{1}{1-n} \log\left(\sum_{i=1}^{N} p_i^n\right)

n0,n1n \geq 0, n \neq 1: 阶参数

pip_i: 离散概率分布

n1n \to 1 时退化为 Shannon 熵 H=pilogpiH = -\sum p_i \log p_i

n=2n = 2: 碰撞熵(collision entropy)

nn \to \infty: 最小熵(min-entropy)H=logmaxipiH_\infty = -\log \max_i p_i

核心要点

阶参数 nn 越大,对高概率事件越敏感,越能反映分布的”峰值”特征

所有阶的 Rényi 熵对均匀分布达到最大值 logN\log N

Rényi 熵可以与 ℓn-范数建立等价关系:Hn=n1nlogpnH_n = \frac{n}{1-n} \log \|\mathbf{p}\|_n

在信息论、密码学、量子信息等领域有广泛应用

代表工作

Rényi (1961): 原始定义论文

Col-Ln: 利用 Rényi 熵推导 token 重要性度量,用于 ViT token pruning

相关概念

信息熵

Token Pruning