K-Means算法最优聚类数量的确定

何选森<sup>*</sup>; 何帆; 徐丽; 樊跃平

摘要

K-均值(K-means)聚类算法是学术与工业领域的经典算法。然而，它却具有两个明显缺陷：1)需要预先知道聚类的数量；2)对算法的随机初始化非常敏感。为了解决这两个问题，首先归纳了K-均值算法的基本步骤，并对聚类有效性进行了分析；然后以数据样本点的欧几里德距离为基础，定义了以聚类数量k为自变量的类间质心距离之和以及类内距离之和，由此构造了聚类有效性评价函数；最后根据经验规则，在聚类数量的可能范围内通过求解聚类有效性评价函数的最小值以确定数据集的最优聚类数量。对UCI的3个数据集Iris、Seeds和Wine的仿真结果说明，提出的聚类有效性评价函数不仅能够准确地反映数据的真实聚类结构，还能有效地抑制算法对随机初始化的敏感性，通过对K-均值算法的多次运行，其结果也验证了聚类有效性评价函数的鲁棒性。

出版日期2022
单位湖南大学; 广州商学院; 北京理工大学

收藏分享被引浏览

更新时间：2024-03-20 16:49

K-Means算法最优聚类数量的确定

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友