Spark大数据计算平台

姜学军; 武枫; 黄海新

doi:10.19353/j.cnki.dzsj.2018.15.041

摘要

随着互联网技术的发展,每时每刻都在产生大量的数据,数据量已成为爆炸性增长的趋势,单机难以存储和分析这些数据。面对难以处理海量数据的单机现状,采用Hadoop分布式计算平台可以有效解决海量数据处理问题。但是Hadoop的Map Reduce编程模型不仅操作单一,抽象层次较低难以上手,而且延时高,难以支持交互式数据处理和实时数据处理,加之其中间结果需存入HDFS对于迭代数据处理性能较差。Spark作为一个新兴的大数据梳理的引擎,除了提供了包括Map Reduce在内的几十个算子,还提供了一个集群的分布式内存抽象,避免频繁使用IO操作并大大提高迭代速度。同时在现实世界大数据应用复杂多样的背景下,Spark丰富的生态圈使得Spark可以轻易的适用于各种场景。

出版日期2018
单位沈阳理工大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-04-25 06:08

Spark大数据计算平台

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友