摘要

在社会经济快速发展的情况下,网络信息技术的更新速度越来越快,如今,促进了大数据时代的进一步发展,而Hadoop作为分布式系统的代表,也成为大数据挖掘系统的重要组成部分之一。分布式数据挖掘系统的主要任务是利用Hadoop搭建分布式集群环境,然后在该环境上部署相应的数据挖掘任务,前提是要对分布式文件系统HDFS和Map Reduce的并行编程模式原理进行深入的分析研究,同时选择运用K-means聚类算法,使Hadoop平台的数据挖掘系统的任务具有良好的发展效率,同时也能显示其计算能力的扩展性能。下面就Hadoop平台的分布式数据挖掘系统的设计进行深入的分析探讨,进而促进信息数据系统的进一步发展。

全文