Spherical K-Means
分类: 基础理论
Spherical K-Means
定义
K-Means 聚类的变体,使用余弦相似度(而非欧氏距离)作为距离度量,聚类中心在单位球面上
数学形式
{Ck}mink=1∑ci∈Ck∑(1−ei⊤ck),ck=∑i∈Ckei2∑i∈Ckei
核心要点
由 Dhillon & Modha (2001) 提出
适用于高维方向信息比幅度更重要的数据(如文本 embedding、token embedding)
聚类中心更新为组内均值的 L2 归一化
FlashHead 增加了等大小约束,使每个聚类恰好包含 v/c 个 token
代表工作
FlashHead: 用等大小球面 K-Means 聚类 token embedding,实现硬件友好的两阶段检索
相关概念
余弦相似度
信息检索
multi-probe retrieval