Long-Tailed Distribution
分类: 基础理论
Long-Tailed Distribution
定义
少量类别/值占据大部分概率质量,大量类别/值概率极小的分布特征
核心要点
LLM 的 softmax 输出典型地呈长尾分布
Top-10,000 个 token 即可覆盖 99.52% 的累积概率
长尾部分的低概率 token 对蒸馏贡献微弱,反而引入数值不稳定
代表工作
MTP-D: 基于长尾分布特性设计 TopN logits 选择策略
分类: 基础理论
少量类别/值占据大部分概率质量,大量类别/值概率极小的分布特征
LLM 的 softmax 输出典型地呈长尾分布
Top-10,000 个 token 即可覆盖 99.52% 的累积概率
长尾部分的低概率 token 对蒸馏贡献微弱,反而引入数值不稳定
MTP-D: 基于长尾分布特性设计 TopN logits 选择策略