Distributional Semantics
分类: NLP基础
Distributional Semantics
定义
分布式语义(Distributional Semantics)是一种基于统计共现的语义理论,其核心假设是 “一个词的意义由它出现的上下文决定”(You shall know a word by the company it keeps — Firth, 1957)。该理论是所有基于上下文的词表示方法(从 LSA 到 Word2Vec 到 BERT)的理论基础。
核心要点
分布式假设(Distributional Hypothesis):语义相似的词倾向于出现在相似的上下文中。这一假设由 Harris (1954) 提出,是整个现代 NLP 词表示研究的理论根基
从计数到预测:该领域经历了从显式计数方法(共现矩阵 + SVD)到隐式预测方法(Word2Vec、GloVe)再到上下文化表示(ELMo、BERT)的演进,但底层的分布式假设一脉相承
词向量的几何结构:分布式语义的一个惊人发现是词向量空间中存在语义类比关系,如 ,反映了分布式统计中隐含的关系结构
静态 vs 动态:传统分布式语义给每个词一个固定向量(Word2Vec、GloVe),无法处理一词多义;BERT 等预训练模型生成上下文相关的动态表示,是分布式语义的自然扩展
局限性:纯分布式方法无法获取非语言的 grounding 信息(如颜色、物理属性),这推动了多模态表示学习的发展
代表工作
Harris (1954): Distributional Structure
Mikolov et al. (2013): Efficient Estimation of Word Representations in Vector Space (Word2Vec)
Pennington et al. (2014): GloVe: Global Vectors for Word Representation
Devlin et al. (2019): BERT: Pre-training of Deep Bidirectional Transformers