基于特征词群的新闻类重复网页和近似网页识别算法

程芃森; 安俊秀

doi:10.16836/j.cnki.jcuit.2012.04.009

摘要

新闻类网页是互联网上冗余信息的重灾区。冗余网页不仅会加剧搜索引擎的处理负担,并且会降低用户体验,因此有必要对互联网上的冗余新闻网页实施消重处理。该算法依据新闻报道的自然语法特点将一篇新闻报道分解到词,从7类词性类别中提取该类别最高词频的词组成新闻报道的特征词群;通过词级倒排索引的建立,完成不同网页间特征词群的检索和对比;通过类型倒排索引的建立,完成重复和近似网页的识别和分类管理。本算法在实施过程借助于搜索引擎系统原有模块,避免新模块的引入保持了系统的简洁性;实验表明该算法是有效的,在测试的网页中召回率达93.5%,准确率达88.4%。冗余网页小粒度分类识别上具有的缺陷,在很大程度上影响了准确率...

出版日期2012
单位成都信息工程大学

全文

访问全文

收藏分享被引浏览

更新时间：2019-07-23 20:24

基于特征词群的新闻类重复网页和近似网页识别算法

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友