Distributed Representations of Words and Phrases and their Compositionality

作者: Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, Jeffrey Dean 年份: 2013 会议: NeurIPS 分类: NLP基础

论文笔记:Word2Vec-Negative-Sampling

一句话总结

  • 提出负采样(Negative Sampling)训练方法和子词采样技巧,大幅提升 Word2Vec 的训练效率和短语表示质量。

核心贡献

  • 负采样(NEG):用噪声对比估计的简化形式替代层次 softmax,将每次参数更新从 O(V) 降到 O(k),k 为负样本数(通常 5-20),训练速度提升数倍
  • 高频词子采样:按频率随机丢弃高频词(如 the, a),既加速训练又提升低频词向量质量
  • 短语向量:通过统计共现识别短语(如 “New York”),将其作为单一 token 训练,使模型能捕捉组合语义
  • 向量算术:展示了 king - man + woman ≈ queen 等语义/句法类比关系在短语向量上同样成立

相关概念

  • Word2Vec
  • Skip-gram
  • 负采样
  • 词向量
  • 噪声对比估计