摘要

学生校园消费数据中隐含了大量的高价值信息,论文从学生消费画像和精准资助两个角度对校园消费数据进行挖掘研究。从数据集本身的特点和kmeans算法的缺陷两个角度出发,论文对kmeans算法进行了两点改进:采用马氏距离代替欧氏距离以适用于具体的校园消费数据应用场景;为了解决随机选择初始聚类中心的方法受离群样本点的影响,采用在高密度样本集合中选择相距最远的k个样本作为初始聚类中心的改进方法。在西安某高校3个月的学生消费数据集上的实验结果表明:论文设计的学生群体分类模型不仅能有效区分不同行为特征的学生,而且能很好地刻画学生的消费画像;通过对比分析聚类标记的贫困生名单和线下认定的贫困生名单,证明了改进kmeans算法在精准资助中的应用价值。