摘要

基于数据规模导致难以应对的存储量、数据规模导致传统算法失效、大数据复杂的数据关联性导致高复杂度的计算等问题,对大数据下的k-means聚类优化算法进行研究,给出了适用于大数据任务处理的MapReduce软件架构的模型机制,通过改进k-means初始聚类中心的选取,提出了一种基于MapReduce模型的k-means聚类优化算法.最后将改进的算法应用于煤炭煤质的分析中,结果显示较传统算法,改进算法的效率有明显提高.

全文