基于k-means特征的适应性近似最近邻搜索算法

胡文洁; 杨凯祥; 谭宗元

摘要

在基于倒排索引和HNSW索引结构的最近邻搜索算法中，由于所有查询点使用固定的终止条件进行近似最近邻搜索，从而导致某些查询点在搜索路径上访问了不必要的数据点。因此，本文针对十亿规模数据集，在IVF-HNSW算法的基础上，根据数据点的k-means特征和真实最小访问点，建立神经网络回归模型。通过模型，动态预测每个查询点在HNSW索引中找到最近邻所需要搜索的质心个数，以及在IVF中需要搜索的倒排列表的个数，最终每个查询点能够通过适应性搜索，减少需要访问的数据库向量的个数，进而降低总体搜索所需要的查询时间。实验结果表明，优化后的自适应搜索算法与原始IVF-HNSW算法相比，在最高召回率下，平均查询时间最多可降低27%。

出版日期2023
单位东华大学

收藏分享被引浏览

更新时间：2024-03-15 14:26

基于k-means特征的适应性近似最近邻搜索算法

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友