Improving Distributional Similarity with Lessons Learned from Word Embeddings

作者: Omer Levy, Yoav Goldberg, Ido Dagan 年份: 2015 会议: TACL 分类: NLP基础

论文笔记：Improving-Word-Embeddings

公平对比框架：将 Skip-gram Negative Sampling (SGNS)、GloVe、PPMI、SVD 等方法置于统一实验框架下对比，消除实现差异带来的混淆因素
关键超参数识别：发现上下文窗口大小、子采样、负采样数、向量维度等超参数对性能的影响远大于算法选择本身
PPMI + SVD 基线：证明经过调优的 Shifted PPMI 矩阵 + SVD 分解可以匹配甚至超越 Word2Vec/GloVe 在多数评测任务上的表现
实践指南：总结了一组可迁移的最佳实践（如动态窗口加权、脏子采样、SPPMI shift 值选择），为后续词向量研究提供了严谨的实验方法论