Distributional Semantics

分类: NLP基础

Distributional Semantics

定义

分布式语义(Distributional Semantics)是一种基于统计共现的语义理论,其核心假设是 “一个词的意义由它出现的上下文决定”(You shall know a word by the company it keeps — Firth, 1957)。该理论是所有基于上下文的词表示方法(从 LSA 到 Word2Vec 到 BERT)的理论基础。

核心要点

分布式假设(Distributional Hypothesis):语义相似的词倾向于出现在相似的上下文中。这一假设由 Harris (1954) 提出,是整个现代 NLP 词表示研究的理论根基

从计数到预测:该领域经历了从显式计数方法(共现矩阵 + SVD)到隐式预测方法(Word2Vec、GloVe)再到上下文化表示(ELMo、BERT)的演进,但底层的分布式假设一脉相承

词向量的几何结构:分布式语义的一个惊人发现是词向量空间中存在语义类比关系,如 kingman+womanqueen\vec{king} - \vec{man} + \vec{woman} \approx \vec{queen},反映了分布式统计中隐含的关系结构

静态 vs 动态:传统分布式语义给每个词一个固定向量(Word2Vec、GloVe),无法处理一词多义;BERT 等预训练模型生成上下文相关的动态表示,是分布式语义的自然扩展

局限性:纯分布式方法无法获取非语言的 grounding 信息(如颜色、物理属性),这推动了多模态表示学习的发展

代表工作

Harris (1954): Distributional Structure

Mikolov et al. (2013): Efficient Estimation of Word Representations in Vector Space (Word2Vec)

Pennington et al. (2014): GloVe: Global Vectors for Word Representation

Devlin et al. (2019): BERT: Pre-training of Deep Bidirectional Transformers

相关概念

Co-occurrence Matrix

Negative Sampling

N-gram

BERT