Spark DAG优化MapReduce协同过滤算法

作者:廖彬; 张陶; 于炯; 国冰磊; 张旭光; 刘炎
来源:中山大学学报(自然科学版), 2017, 56(03): 46-56.
DOI:10.13471/j.cnki.acta.snus.2017.03.008

摘要

大数据的规模效应给数据存储、管理以及数据分析带来了极大的挑战,高效率低成本的大数据处理技术成为学术界及工业界的研究热点。为提高协同过滤算法的执行效率,对MapReduce架构下的算法执行步骤进行了分解,并对算法执行缺陷进行了分析。结合Spark适于迭代型及交互型任务的特点,提出将算法从MapReduce平台移植Spark平台的改进思路。设计了算法在Spark中的实现流程,并通过参数调整、内存优化等方法进一步提高算法效率。实验结果表明:与MapReduce平台中的算法相比,基于Spark DAG调度的算法能够减少65%以上的HDFS重复I/O操作,执行效率与能耗效率分别提升近200%及50%。

全文