探针任务(Probing)

分类: 预训练与微调 · 难度: 中级 · 关联讲座: L07

探针任务(Probing):量化表示编码的语言学信息

本文介绍探针任务(Probing)方法论,通过在预训练模型各层的冻结表示上训练简单线性分类器,量化不同层次编码的语言学信息类型和丰富程度。这一方法揭示了 BERT 等模型内部”重新发现”经典 NLP 流水线的层次化结构。


1. 探针方法的形式化

📐 探针任务(Probing):量化表示编码的语言学信息

形式化:从预训练模型第 ll 层提取表示 hl(t)Rdh_l^{(t)} \in \mathbb{R}^d,训练简单线性分类器(探针)预测语言学属性:

y^=Whl(t)+b,Lprobe=CrossEntropy(y^,ylinguistic)\hat{y} = W \cdot h_l^{(t)} + b, \quad \mathcal{L}_{probe} = \text{CrossEntropy}(\hat{y}, y_{linguistic})

探针的测试准确率越高,说明第 ll 层编码了越多该属性的信息。使用线性探针而非非线性分类器是关键设计——若探针本身足够强大(如 MLP),则高准确率可能来自探针本身的拟合能力而非表示质量。

层次化信息分布(BERT-Base 的典型发现)

层数(1-12)编码的主要信息代表任务
1-3(底层)词法/表层特征词性标注(POS)、子词边界
4-8(中层)句法结构依存关系、短语成分
9-12(高层)语义/任务相关词义消歧(WSD)、共指消解、情感