摘要

对搜索引擎的检索性能进行评价是信息检索的一个重要方面,目前已经提出和使用许多各有特色的评价指标.对于如何选择出综合特性最优的评价指标,需要准确、可靠的判断方法.文中提出基于t检验的方法,并使用该方法对5种常用的评价指标进行了试验研究,包括平均查准率(average precision,AP)、前10个文档的查准率(precision at 10 document level,P@10)、可查全水平查准率(recall-level precision,RP)、第1位相关文档的倒数(reciprocal ranking,RR)、规范化带折扣的累积收益(normalized discounted cumulative gain,NDCG).结果表明NDCG的综合特性最好,其次是AP,然后是RP和P@10,RR最差.对于任意2个评价指标所提出的方法可以给出定量的比较结果.