NER

分类: NLP基础

NER

定义

命名实体识别(Named Entity Recognition, NER)是从文本中定位并分类命名实体(人名、地名、机构名、时间、数值等)的序列标注任务,是信息抽取的基础步骤,也是 CS224N 重点讲解的经典 NLP 任务

数学形式

作为序列标注任务,常用 BIO 标注方案:B-PER(实体开始)、I-PER(实体延续)、O(非实体)

BiLSTM-CRF 模型的条件概率: P(yx)=exp(t=1T(Eyt,t+Tyt1,yt))yexp(t=1T(Eyt,t+Tyt1,yt))P(\mathbf{y} | \mathbf{x}) = \frac{\exp\left(\sum_{t=1}^{T}(E_{y_t, t} + T_{y_{t-1}, y_t})\right)}{\sum_{\mathbf{y}'}\exp\left(\sum_{t=1}^{T}(E_{y'_t, t} + T_{y'_{t-1}, y'_t})\right)}

其中 Eyt,tE_{y_t, t} 为 BiLSTM 在位置 tt 对标签 yty_t 的发射分数,TT 为 CRF 转移矩阵

核心要点

标注方案:BIO(Begin-Inside-Outside)最常用;BIOES(加 End 和 Single)更精细

经典实体类型:PER(人名)、LOC(地名)、ORG(机构)、MISC(其他);领域 NER 可扩展到药物、基因、疾病等

模型演进

  • 规则/字典匹配 → CRF → BiLSTM-CRF(Lample et al., 2016)→ BERT fine-tuning(当前 SOTA)

BiLSTM-CRF:BiLSTM 提取上下文特征,CRF 层建模标签间的转移约束(如 I-PER 不能跟在 B-LOC 后面)

BERT for NER:在 BERT 输出上加 token-level 分类头,CoNLL-2003 英文 NER F1 达 ~93%

评估指标:实体级别的 Precision、Recall、F1(只有完全匹配——边界和类型都对——才算正确)

挑战:嵌套实体(“New York Times” 中 “New York” 也是实体)、低资源语言、领域迁移

CS224N 作为序列标注的典型任务,常与 POS tagging 一起讲授

代表工作

Lample et al., 2016: Neural Architectures for Named Entity Recognition (BiLSTM-CRF)

Devlin et al., 2019: BERT fine-tuning for NER (BERT 原论文下游任务之一)

相关概念

Dependency Parsing

Word Embedding

BERT