Long-Tailed Distribution

分类: 基础理论

Long-Tailed Distribution

定义

少量类别/值占据大部分概率质量,大量类别/值概率极小的分布特征

核心要点

LLM 的 softmax 输出典型地呈长尾分布

Top-10,000 个 token 即可覆盖 99.52% 的累积概率

长尾部分的低概率 token 对蒸馏贡献微弱,反而引入数值不稳定

代表工作

MTP-D: 基于长尾分布特性设计 TopN logits 选择策略

相关概念

Top-K Selection

Softmax