Distributional Semantics

分类: NLP基础

Distributional Semantics

定义

分布式语义（Distributional Semantics）是一种基于统计共现的语义理论，其核心假设是 “一个词的意义由它出现的上下文决定”（You shall know a word by the company it keeps — Firth, 1957）。该理论是所有基于上下文的词表示方法（从 LSA 到 Word2Vec 到 BERT）的理论基础。

核心要点

分布式假设（Distributional Hypothesis）：语义相似的词倾向于出现在相似的上下文中。这一假设由 Harris (1954) 提出，是整个现代 NLP 词表示研究的理论根基

从计数到预测：该领域经历了从显式计数方法（共现矩阵 + SVD）到隐式预测方法（Word2Vec、GloVe）再到上下文化表示（ELMo、BERT）的演进，但底层的分布式假设一脉相承

词向量的几何结构：分布式语义的一个惊人发现是词向量空间中存在语义类比关系，如 $\vec{king} - \vec{man} + \vec{woman} \approx \vec{queen}$ ，反映了分布式统计中隐含的关系结构

静态 vs 动态：传统分布式语义给每个词一个固定向量（Word2Vec、GloVe），无法处理一词多义；BERT 等预训练模型生成上下文相关的动态表示，是分布式语义的自然扩展

局限性：纯分布式方法无法获取非语言的 grounding 信息（如颜色、物理属性），这推动了多模态表示学习的发展

代表工作

Harris (1954): Distributional Structure

Mikolov et al. (2013): Efficient Estimation of Word Representations in Vector Space (Word2Vec)

Pennington et al. (2014): GloVe: Global Vectors for Word Representation

Devlin et al. (2019): BERT: Pre-training of Deep Bidirectional Transformers

Distributional Semantics

Distributional Semantics

定义

核心要点

代表工作

相关概念