CS224N / 学习笔记

#word2vec #negative-sampling #word-embeddings #NLP

Distributed Representations of Words and Phrases and their Compositionality

作者: Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, Jeffrey Dean 年份: 2013 会议: NeurIPS 分类: NLP基础

论文笔记：Word2Vec-Negative-Sampling

一句话总结

提出负采样（Negative Sampling）训练方法和子词采样技巧，大幅提升 Word2Vec 的训练效率和短语表示质量。

核心贡献

负采样（NEG）：用噪声对比估计的简化形式替代层次 softmax，将每次参数更新从 O(V) 降到 O(k)，k 为负样本数（通常 5-20），训练速度提升数倍
高频词子采样：按频率随机丢弃高频词（如 the, a），既加速训练又提升低频词向量质量
短语向量：通过统计共现识别短语（如 “New York”），将其作为单一 token 训练，使模型能捕捉组合语义
向量算术：展示了 king - man + woman ≈ queen 等语义/句法类比关系在短语向量上同样成立

相关概念

Word2Vec
Skip-gram
负采样
词向量
噪声对比估计