摘要

信息时代的到来,知网(CNKI)成为国内最大的论文数据库,如何高效地获取论文信息,挖掘论文价值,成为了一个亟待解决的问题。目前,论文检索工具多为通用爬虫,只能采集到部分少量的信息,且包含着不符合用户要求的信息,因此实现一个集聚焦论文信息采集和实时论文数据分析的系统变得极为重要。该系统针对如何高效获取论文信息,挖掘论文价值等问题,使用Python Django框架和Celery框架将网站和爬虫结合,实现了爬虫的自动化。系统分为论文爬取模块和多维度分析模块。其中,论文爬取模块使用Selenium,模拟用户点击,并使用Beutifulsoup4和Requests解析网页内容,最后将获取到的论文信息存储到MySQL数据库中。多维度分析模块使用High Charts进行数据展示,主要对与关键词相关的论文发表趋势,高产作者、机构等信息进行分析。通过该系统,科研学者可以方便快捷地获取到研究领域的各种论文信息,为以后的深入研究提供数据支撑。