摘要

搜索引擎排序作弊通过提高网页与搜索请求的相关性,达到提高搜索排名的目的.为此,根据作弊网页的特征,引入作弊倾向系数这一概念来衡量网页作弊的可能性.网页作弊通过多种手段实现,鉴于此本文基于网页内容本身的名词密度特征,衡量页面内容作弊的可能性,由于搜索关键词大部分为名词,超过一定名词比例阈值的页面,其内容作弊的可能性越大.根据页面的链接特征,衡量页面链接作弊的可能性,从黑名单页面通过迭代计算链接作弊系数,并根据与黑名单页面的距离设置权重.最终从上述两方面特征来综合考量页面的作弊倾向系数.选取PageRank,TrustRank,BadRank为基线实验,实验结果验证了关于检索词性分析的假设以及链接作弊检测算法的有效性.