摘要

针对XML文档半结构化的特点及传统tf-idf方法仅考虑关键字在文档中出现的频率,而未考虑XML文档中节点的语义信息问题,利用向量空间模型,设计一种基于XML关键字查询结果的相关度排序策略.相关度计算充分考虑XML文档中各节点对文档的区分程度、节点描述文档的明确程度及节点描述文档的直接程度,以提高节点权重度量的准确性,从而将最相关的信息提供给用户,经DBLP数据集实验验证了该方法的有效性.