CS224N / 学习笔记

Spherical K-Means

分类: 基础理论

Spherical K-Means

定义

K-Means 聚类的变体，使用余弦相似度（而非欧氏距离）作为距离度量，聚类中心在单位球面上

数学形式

\min_{\{\mathcal{C}_k\}} \sum_{k=1}^{c} \sum_{i \in \mathcal{C}_k} \left(1 - \mathbf{e}_i^\top \mathbf{c}_k \right), \quad \mathbf{c}_k = \frac{\sum_{i \in \mathcal{C}_k} \mathbf{e}_i}{\left\| \sum_{i \in \mathcal{C}_k} \mathbf{e}_i \right\|_2}

核心要点

由 Dhillon & Modha (2001) 提出

适用于高维方向信息比幅度更重要的数据（如文本 embedding、token embedding）

聚类中心更新为组内均值的 L2 归一化

FlashHead 增加了等大小约束，使每个聚类恰好包含 $v/c$ 个 token

代表工作

FlashHead: 用等大小球面 K-Means 聚类 token embedding，实现硬件友好的两阶段检索

相关概念

余弦相似度

multi-probe retrieval