LM Head

分类: 深度学习基础

LM Head

定义

语言模型中将最终隐藏表示映射到词表空间的线性投影层,输出 logit 向量

数学形式

z=Wh(L),WRV×dz = W h^{(L)}, \quad W \in \mathbb{R}^{|\mathcal{V}| \times d}

核心要点

是从 embedding 空间到 logit 空间的线性变换

常与 embedding 层共享权重(tied weights)

线性投影不会放大扰动,甚至可以降低正交分量的相对幅度

输出维度为词表大小 V|\mathcal{V}|,远大于隐藏维度 dd

代表工作

Pruning-on-Representations: 证明 LM Head 保持甚至增强了剪枝后的表征相似性

相关概念

Softmax

自回归解码

Word Embedding