摘要

随着人类社会的不断进步和发展,K-Means作为聚类中较常用的算法,得到广泛的应用。该文探讨了K-Means和Canopy算法的执行过程,针对K-Means及Canopy的优缺点,提出了改进的K-Means算法。算法中将Canopy作为K-Means的预处理,通过Canopy得到聚类中簇的个数、初始化的聚类中心,同时排除掉"噪声"以及孤立点带来的影响,将Canopy的结果用于K-Means,进一步增强聚类性能,减少计算量。另外,针对K-Means中使用的距离度量公式,提出了改进的余弦距离度量公式,使得簇内数据点间的距离减小,簇间数据点间的距离增大,提高聚类质量。

全文