Distributed Representations of Words and Phrases and their Compositionality
作者: Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, Jeffrey Dean 年份: 2013 会议: NeurIPS 分类: NLP基础
论文笔记:Word2Vec-Negative-Sampling
一句话总结
- 提出负采样(Negative Sampling)训练方法和子词采样技巧,大幅提升 Word2Vec 的训练效率和短语表示质量。
核心贡献
- 负采样(NEG):用噪声对比估计的简化形式替代层次 softmax,将每次参数更新从 O(V) 降到 O(k),k 为负样本数(通常 5-20),训练速度提升数倍
- 高频词子采样:按频率随机丢弃高频词(如 the, a),既加速训练又提升低频词向量质量
- 短语向量:通过统计共现识别短语(如 “New York”),将其作为单一 token 训练,使模型能捕捉组合语义
- 向量算术:展示了 king - man + woman ≈ queen 等语义/句法类比关系在短语向量上同样成立
相关概念
- Word2Vec
- Skip-gram
- 负采样
- 词向量
- 噪声对比估计