摘要

k-means聚类算法的有效性依赖于初始中心的选择。提出一种利用样本点空间分布的邻域密度来选择合理的初始中心的算法。提出的算法是对DK算法[2]的一种改进。有两方面改进:一是通过合理地选择距离阈值来静态地选择初始聚类中心,称为DK-Ⅱ-S算法;二是通过对选择样本点计算密度与已选择聚类中心最小距离的加权,使得该点被选择为初始中心点的概率与这个加权成正比,动态地选择初始聚类中心,称为DK-Ⅱ-D算法。在一个实际文本数据集上进行实验计算,证实算法改进的效果良好。