Spherical K-Means

分类: 基础理论

Spherical K-Means

定义

K-Means 聚类的变体,使用余弦相似度(而非欧氏距离)作为距离度量,聚类中心在单位球面上

数学形式

min{Ck}k=1ciCk(1eick),ck=iCkeiiCkei2\min_{\{\mathcal{C}_k\}} \sum_{k=1}^{c} \sum_{i \in \mathcal{C}_k} \left(1 - \mathbf{e}_i^\top \mathbf{c}_k \right), \quad \mathbf{c}_k = \frac{\sum_{i \in \mathcal{C}_k} \mathbf{e}_i}{\left\| \sum_{i \in \mathcal{C}_k} \mathbf{e}_i \right\|_2}

核心要点

由 Dhillon & Modha (2001) 提出

适用于高维方向信息比幅度更重要的数据(如文本 embedding、token embedding)

聚类中心更新为组内均值的 L2 归一化

FlashHead 增加了等大小约束,使每个聚类恰好包含 v/cv/c 个 token

代表工作

FlashHead: 用等大小球面 K-Means 聚类 token embedding,实现硬件友好的两阶段检索

相关概念

余弦相似度

信息检索

multi-probe retrieval