Top-K Selection

分类: 高效推理与部署

Top-K Selection

定义

从概率分布或 logits 中选取值最大的 K 个元素的操作,常用于采样和蒸馏中的效率优化

数学形式

IK=TopK(x,K)={i:xi 在 x 中排名前 K}\mathcal{I}^K = \text{TopK}(x, K) = \{i : x_i \text{ 在 } x \text{ 中排名前 } K\}

核心要点

在蒸馏中用于减少词表维度,避免低概率 token 的噪声

在采样中用于 Top-K sampling 策略

MTP-D 中 TopN=10,000 覆盖 99.52% 累积概率

代表工作

MTP-D: TopNN-logits-selected 自蒸馏

相关概念

Softmax

Long-Tailed Distribution