摘要

通过比较普通爬虫与主题爬虫,以主题相关性为核心设计搜集数码产品信息的主题爬虫。提出相似度和PageRank相结合的排序算法,从而保证所搜集网页的主题相关性,切返用户之需,为主题搜索引擎的实现奠定了良好的基础。