Co-occurrence Matrix

分类: NLP基础

Co-occurrence Matrix

定义

共现矩阵（Co-occurrence Matrix）是一种基于统计的词表示方法，通过记录词汇表中每对词在固定窗口内共同出现的次数来构建词-词矩阵 $X \in \mathbb{R}^{|V| \times |V|}$ 。矩阵中的元素 $X_{ij}$ 表示词 $i$ 和词 $j$ 在给定上下文窗口内共同出现的频次。

核心要点

分布式假设的直接实现：根据 Harris (1954) 的分布式假设——“语义相近的词出现在相似的上下文中”——共现统计量天然编码了词的语义信息

窗口大小的影响：小窗口（2-5）捕获句法关系（如 “strong tea”），大窗口（5-10+）捕获语义/话题关系（如 “doctor hospital”）

稀疏性与降维：原始共现矩阵非常稀疏且维度等于词汇量（可达数万），通常需要 SVD 等降维方法提取稠密的低维表示

GloVe 的改进：GloVe 算法直接对共现矩阵的对数进行加权最小二乘回归， $J = \sum_{i,j} f(X_{ij})(w_i^\top \tilde{w}_j + b_i + \tilde{b}_j - \log X_{ij})^2$ ，结合了矩阵分解和局部上下文窗口的优点

与 Word2Vec 的联系：Levy & Goldberg (2014) 证明 Word2Vec（Skip-gram + Negative Sampling）隐式地在分解经过偏移的 PMI（pointwise mutual information）矩阵

代表工作

Deerwester et al. (1990): Latent Semantic Analysis（LSA/LSI，对词-文档矩阵做 SVD）

Pennington et al. (2014): GloVe: Global Vectors for Word Representation

Levy & Goldberg (2014): Neural Word Embedding as Implicit Matrix Factorization

Co-occurrence Matrix

Co-occurrence Matrix

定义

核心要点

代表工作

相关概念