基于大数据的网络数据采集研究与实践

作者:霍英; 李小帆; 丘志敏; 李彦廷
来源:软件工程, 2023, 26(04): 28-32.
DOI:10.19644/j.cnki.issn2096-1472.2023.004.007

摘要

在微博大数据环境下,文章以舆情数据采集、用户行为分析为应用背景,提出了一种爬虫数据采集系统的设计与实现方案。该方案主要采用的是聚焦爬虫和增量式爬虫相结合,同时基于内容评价的爬行策略,对用户给定的关键词进行搜索,并在其发生变化时对相关内容进行更新,从而实现数据采集的及时性和有效性。通过实际数据采集效果来看,本方案单机日数据采集量约为88万条,实际应用中用户可根据需求自定义爬取数据的速度,也可通过增加分布式爬虫数量提升爬取数据量与速度。