探针任务(Probing)
分类: 预训练与微调 · 难度: 中级 · 关联讲座: L07
探针任务(Probing):量化表示编码的语言学信息
本文介绍探针任务(Probing)方法论,通过在预训练模型各层的冻结表示上训练简单线性分类器,量化不同层次编码的语言学信息类型和丰富程度。这一方法揭示了 BERT 等模型内部”重新发现”经典 NLP 流水线的层次化结构。
1. 探针方法的形式化
📐 探针任务(Probing):量化表示编码的语言学信息
形式化:从预训练模型第 层提取表示 ,训练简单线性分类器(探针)预测语言学属性:
探针的测试准确率越高,说明第 层编码了越多该属性的信息。使用线性探针而非非线性分类器是关键设计——若探针本身足够强大(如 MLP),则高准确率可能来自探针本身的拟合能力而非表示质量。
层次化信息分布(BERT-Base 的典型发现):
| 层数(1-12) | 编码的主要信息 | 代表任务 |
|---|---|---|
| 1-3(底层) | 词法/表层特征 | 词性标注(POS)、子词边界 |
| 4-8(中层) | 句法结构 | 依存关系、短语成分 |
| 9-12(高层) | 语义/任务相关 | 词义消歧(WSD)、共指消解、情感 |