LM Head
分类: 深度学习基础
LM Head
定义
语言模型中将最终隐藏表示映射到词表空间的线性投影层,输出 logit 向量
数学形式
核心要点
是从 embedding 空间到 logit 空间的线性变换
常与 embedding 层共享权重(tied weights)
线性投影不会放大扰动,甚至可以降低正交分量的相对幅度
输出维度为词表大小 ,远大于隐藏维度
代表工作
Pruning-on-Representations: 证明 LM Head 保持甚至增强了剪枝后的表征相似性
分类: 深度学习基础
语言模型中将最终隐藏表示映射到词表空间的线性投影层,输出 logit 向量
是从 embedding 空间到 logit 空间的线性变换
常与 embedding 层共享权重(tied weights)
线性投影不会放大扰动,甚至可以降低正交分量的相对幅度
输出维度为词表大小 ,远大于隐藏维度
Pruning-on-Representations: 证明 LM Head 保持甚至增强了剪枝后的表征相似性