摘要

真实数据集中含有缺失值,许多数据分析技术不能直接应用到不完整数据上,且缺失值的存在会明显地降低算法的有效性,缺失数据处理是一个不可缺少的数据预处理过程,因此提出了一个基于统计度量的缺失值填补算法,名为灰色类中心缺失值填补(GCCMVI)方法,利用数据点的类中心和标准差来填补缺失值,此外,通过比较阈值和实例与类中心间相关性的大小关系,决定是否加上(减去)标准差,灰色关联分析用来计算相关性,在缺失值被填补后,得到的完整的数据集用来训练支持向量机(SVM)分类器.在三种类型不同的数据集上进行比较,以分类精度,填补效果,填补时间作为评估准则来衡量算法的有效性.实验结果表明,所提出的算法显著地提高了分类精度和填补效果.