摘要

在大型搜索引擎的查询处理过程中,对索引文件的顺序遍历将导致响应时间过长,自索引结构能够有效解决上述问题。为了进一步缩短查询时间,通过对当前索引文件自索引结构的分析,设计了倒排链表的多层自索引结构。此结构以定长元组为单位,使用迭代的方法提取数据段同步点形成上层自索引;在此基础上,实现了索引压缩与查询系统。基于TREC GOV2数据集的测试结果表明,该系统的各项性能指标均优于不采用自索引结构的查询系统,在不影响结果精度的情况下使检索效率得到大幅提升。

  • 出版日期2017
  • 单位国防科学技术大学; 国防科学技术大学计算机学院; 西安交通大学