Co-occurrence Matrix

分类: NLP基础

Co-occurrence Matrix

定义

共现矩阵(Co-occurrence Matrix)是一种基于统计的词表示方法,通过记录词汇表中每对词在固定窗口内共同出现的次数来构建词-词矩阵 XRV×VX \in \mathbb{R}^{|V| \times |V|}。矩阵中的元素 XijX_{ij} 表示词 ii 和词 jj 在给定上下文窗口内共同出现的频次。

核心要点

分布式假设的直接实现:根据 Harris (1954) 的分布式假设——“语义相近的词出现在相似的上下文中”——共现统计量天然编码了词的语义信息

窗口大小的影响:小窗口(2-5)捕获句法关系(如 “strong tea”),大窗口(5-10+)捕获语义/话题关系(如 “doctor hospital”)

稀疏性与降维:原始共现矩阵非常稀疏且维度等于词汇量(可达数万),通常需要 SVD 等降维方法提取稠密的低维表示

GloVe 的改进:GloVe 算法直接对共现矩阵的对数进行加权最小二乘回归,J=i,jf(Xij)(wiw~j+bi+b~jlogXij)2J = \sum_{i,j} f(X_{ij})(w_i^\top \tilde{w}_j + b_i + \tilde{b}_j - \log X_{ij})^2,结合了矩阵分解和局部上下文窗口的优点

与 Word2Vec 的联系:Levy & Goldberg (2014) 证明 Word2Vec(Skip-gram + Negative Sampling)隐式地在分解经过偏移的 PMI(pointwise mutual information)矩阵

代表工作

Deerwester et al. (1990): Latent Semantic Analysis(LSA/LSI,对词-文档矩阵做 SVD)

Pennington et al. (2014): GloVe: Global Vectors for Word Representation

Levy & Goldberg (2014): Neural Word Embedding as Implicit Matrix Factorization

相关概念

Distributional Semantics

Negative Sampling

N-gram