NER
分类: NLP基础
NER
定义
命名实体识别(Named Entity Recognition, NER)是从文本中定位并分类命名实体(人名、地名、机构名、时间、数值等)的序列标注任务,是信息抽取的基础步骤,也是 CS224N 重点讲解的经典 NLP 任务
数学形式
作为序列标注任务,常用 BIO 标注方案:B-PER(实体开始)、I-PER(实体延续)、O(非实体)
BiLSTM-CRF 模型的条件概率:
其中 为 BiLSTM 在位置 对标签 的发射分数, 为 CRF 转移矩阵
核心要点
标注方案:BIO(Begin-Inside-Outside)最常用;BIOES(加 End 和 Single)更精细
经典实体类型:PER(人名)、LOC(地名)、ORG(机构)、MISC(其他);领域 NER 可扩展到药物、基因、疾病等
模型演进:
- 规则/字典匹配 → CRF → BiLSTM-CRF(Lample et al., 2016)→ BERT fine-tuning(当前 SOTA)
BiLSTM-CRF:BiLSTM 提取上下文特征,CRF 层建模标签间的转移约束(如 I-PER 不能跟在 B-LOC 后面)
BERT for NER:在 BERT 输出上加 token-level 分类头,CoNLL-2003 英文 NER F1 达 ~93%
评估指标:实体级别的 Precision、Recall、F1(只有完全匹配——边界和类型都对——才算正确)
挑战:嵌套实体(“New York Times” 中 “New York” 也是实体)、低资源语言、领域迁移
CS224N 作为序列标注的典型任务,常与 POS tagging 一起讲授
代表工作
Lample et al., 2016: Neural Architectures for Named Entity Recognition (BiLSTM-CRF)
Devlin et al., 2019: BERT fine-tuning for NER (BERT 原论文下游任务之一)