摘要

针对K-means聚类算法对初始聚类中心敏感问题,提出1种结合方差与误差平方和的优化算法。首先,该算法基于方差和距离选取k个位于不同区域且样本点相对集中的集合。然后,分别选取使这k个样本集合误差平方和最小的数据作为k个初始聚类中心。利用改进算法与其他算法将UCI数据库中所选取的数据集进行聚类划分,对比不同算法下的聚类结果。研究结果表明,改进算法不仅可以提高聚类质量,而且可以减少聚类的迭代次数,加快收敛速度。