Spark DAG优化MapReduce协同过滤算法

廖彬; 张陶; 于炯; 国冰磊; 张旭光; 刘炎

doi:10.13471/j.cnki.acta.snus.2017.03.008

摘要

大数据的规模效应给数据存储、管理以及数据分析带来了极大的挑战,高效率低成本的大数据处理技术成为学术界及工业界的研究热点。为提高协同过滤算法的执行效率,对MapReduce架构下的算法执行步骤进行了分解,并对算法执行缺陷进行了分析。结合Spark适于迭代型及交互型任务的特点,提出将算法从MapReduce平台移植Spark平台的改进思路。设计了算法在Spark中的实现流程,并通过参数调整、内存优化等方法进一步提高算法效率。实验结果表明:与MapReduce平台中的算法相比,基于Spark DAG调度的算法能够减少65%以上的HDFS重复I/O操作,执行效率与能耗效率分别提升近200%及50%。

出版日期2017
单位新疆大学; 新疆财经大学; 清华大学; 新疆医科大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-05-12 05:09

Spark DAG优化MapReduce协同过滤算法

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友