基于概率模型的主题爬虫的研究和实现

白玉昭; 梁久祯

登录

免费注册

赞收藏引用

科研之友

微信

新浪微博

Facebook

分享链接

基于概率模型的主题爬虫的研究和实现

作者：白玉昭; 梁久祯

来源：计算机工程与科学, 2013, (01): 160-165.

摘要

在现有多种主题爬虫的基础上,提出了一种基于概率模型的主题爬虫。它综合抓取过程中获得的多方面的特征信息来进行分析,并运用概率模型计算每个URL的优先值,从而对URL进行过滤和排序。基于概率模型的主题爬虫解决了大多数爬虫抓取策略单一这个缺陷,它与以往主题爬虫的不同之处是除了使用主题相关度评价指标外,还使用了历史评价指标和网页质量评价指标,较好地解决了"主题漂移"和"隧道穿越"问题,同时保证了资源的质量。最后通过多组实验验证了其在主题网页召回率和平均主题相关度上的优越性。

出版日期2013
单位江南大学

收藏分享被引浏览

更新时间：2019-07-11 05:51

相似论文
引用论文
参考文献

产品服务

科研之友科研之友机构版科创云

站内浏览

科研成果科研人员科研机构

服务支持

帮助中心隐私政策服务条款

联系方式

在线客服：【立即咨询】客户热线：400-1616-289 电子邮箱：support@scholarmate.com

微信公众号