Vocabulary Trimming
分类: 高效推理与部署
Vocabulary Trimming
定义
根据词频统计裁剪低频 token,缩小分类头的词表规模以加速推理
核心要点
由 Ushio et al. (2023) 在 EMNLP 提出
Training-free 方法,使用校准集统计词频后直接删除低频 token
优点:实现简单,GPU/CPU 均有加速
致命缺陷:裁剪词表后对稀有 token 和跨语言场景鲁棒性极差(XNLI Top-1 仅 0.51)
裁剪后不可逆,永久丧失对低频 token 的生成能力
代表工作
FlashHead: 对比方法,FlashHead 保留完整词表且精度更高