一种基于时间感知的增量机器爬虫方法

作者:张志勇; 李玉祥; 赵长伟; 牛丹梅; 张丽丽; 刘芳云; 张蓝方; 向菲
来源:2018-05-31, 中国, ZL201810551090.1.

摘要

一种基于时间感知的增量机器爬虫方法,根据每个页面的基于初始爬行时间表T={t1,t2,...,tn}的相似性得分序列PTS和最大相似性阈值δ,将大于最大相似性阈值δ的相似性得分和对应的初始时间戳去掉,得到优化的相似性得分时间序列new_PTS和优化的爬行计划时间表new_T;如果优化的爬行计划时间表new_T的时间戳数|new_T|大于最佳爬行频次,就根据优化的相似性得分序列new_PTS得出降维后的时间感知相似性协方差矩阵,用MIQP算法得出页面的最佳爬行时间表,对发生变化的网页进行增量更新。本发明可以为目标页面制定最优的页面刷新策略,从而降低页面的刷新代价,减少数据冗余的产生,提高爬虫的效率并保证抓取资源的新鲜性。