信息检索

分类: 基础理论

信息检索

定义

从大规模数据集合中高效找到与查询最相关的文档/向量的技术领域

核心要点

经典方法包括倒排索引、TF-IDF、BM25;现代方法包括稠密向量检索(ANN)

核心挑战是在精度和效率之间取得平衡:精确搜索 O(N)O(N),近似搜索可降至 O(logN)O(\log N) 或更低

在语言模型中,next token 预测可视为在词表空间中对 hidden vector 做最近邻检索

Multi-probe 策略通过同时探测多个候选区域提高召回率

代表工作

FlashHead: 将分类头重构为两阶段检索问题(粗筛 + 精排)

Multi-Probe LSH: 多探针局部敏感哈希

相关概念

Multi-Probe LSH

余弦相似度

Spherical K-Means