摘要

在大数据时代,待分析数据的体量巨大,种类繁多,数据价值密度低并且有很多实时数据要求快速处理,使用人力来处理这些数据是不可能的,因此必须使用机器学习方法。然而,如果使用传统的机器学习算法对这些数据进行处理和分析,可能会导致速度慢,耗时长等许多弊端。对传统的机器学习算法进行并行化处理是大数据分析的必要手段。本文以kNN算法为例,基于Python语言和MapRedce框架,设计并实现基于Hadoop平台的kNN并行化算法,并且在数据集上测试了算法,从正确率和消耗时间角度对算法的串行化实现方式和并行化实现方式进行了分析。