摘要

提出了一种新的语义相似度计算方法。该算法结合了被评估概念的高度、路径长度和公共细化度(specificity);改进了基于路径的语义相似度算法,利用本体结构,引入基于信息量算法的思想,使得新算法能够获取更多的语义信息,同时又不需要对于文本数据进行预处理;考虑本体中簇的粒度对本体的相似度计算有一定影响,在公式中添加概念在本体中的高度信息,达到低层次的概念间共享的信息要比高层次的概念间共享的信息更多。为了评估所提出的新方法,在实验中,用标准的生物医学系统命名法-临床术语(systematized nomenclature of medicine-clinical terms,SNOMED CT)作为输入本体,用已标注好的概念对集合作为数据集。实验结果表明,所提出的方法不仅保留了基于路径算法的简洁性,还优于现有语义相似度算法,证明了所提出方法的有效性。