基于MapReduce的并行PageRank算法实现

平宇; 向阳; 张波; 黄寅飞

摘要

分布式网络爬虫的广泛应用使得搜索引擎的数据规模呈几何式增长,面对数以TB甚至PB量级的数据,单机模式下的PageRank算法由于CPU、I/O和内存的开销过大导致效率低下。为此,提出一种基于MapReduce框架的并行PageRank算法。在算法的一次迭代过程中,利用Map函数对网页拓扑信息文件进行解析,使用Reduce函数计算网页得分,从而并行化PageRank算法的中间迭代过程。通过计算全局网页得分控制迭代次数,得到较精确的网页排序结果。实验结果表明,该算法在保持原有单机PageRank算法整体网页排序精度的基础上,具有较好的集群性能和较快的执行速度。

出版日期2014
单位上海证券交易所; 同济大学; 上海师范大学

收藏分享被引浏览

更新时间：2019-05-23 11:20

基于MapReduce的并行PageRank算法实现

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友