Co-occurrence Matrix
分类: NLP基础
Co-occurrence Matrix
定义
共现矩阵(Co-occurrence Matrix)是一种基于统计的词表示方法,通过记录词汇表中每对词在固定窗口内共同出现的次数来构建词-词矩阵 。矩阵中的元素 表示词 和词 在给定上下文窗口内共同出现的频次。
核心要点
分布式假设的直接实现:根据 Harris (1954) 的分布式假设——“语义相近的词出现在相似的上下文中”——共现统计量天然编码了词的语义信息
窗口大小的影响:小窗口(2-5)捕获句法关系(如 “strong tea”),大窗口(5-10+)捕获语义/话题关系(如 “doctor hospital”)
稀疏性与降维:原始共现矩阵非常稀疏且维度等于词汇量(可达数万),通常需要 SVD 等降维方法提取稠密的低维表示
GloVe 的改进:GloVe 算法直接对共现矩阵的对数进行加权最小二乘回归,,结合了矩阵分解和局部上下文窗口的优点
与 Word2Vec 的联系:Levy & Goldberg (2014) 证明 Word2Vec(Skip-gram + Negative Sampling)隐式地在分解经过偏移的 PMI(pointwise mutual information)矩阵
代表工作
Deerwester et al. (1990): Latent Semantic Analysis(LSA/LSI,对词-文档矩阵做 SVD)
Pennington et al. (2014): GloVe: Global Vectors for Word Representation
Levy & Goldberg (2014): Neural Word Embedding as Implicit Matrix Factorization