摘要

为解决数据集样本维数较高时已有粒子群优化K均值算法计算速度较慢且聚类结果不稳定的问题,利用第1阶段聚类层次凝聚聚类获得准确率较高的子簇集合,作为粒子群优化K均值聚类算法初始聚类中心的搜索空间,进行第2阶段聚类.提出了一种简化的粒子编码方法,以减小样本维数对计算复杂度的影响;引入混沌的思想,以保持粒子种群的多样性,从而避免粒子群优化算法可能出现的早熟现象.通过两阶段聚类,有效地融合了粒子群优化、层次聚类与划分聚类算法的优点.在多个UCI数据集上的聚类结果表明,与几种对比算法聚类结果的最优值相比,其纯度分别提高了1%~8%,且耗时减少50%以上.