摘要

对于非平衡聚类问题,传统K-均值聚类方法容易将分布在较大区域类中的样本错误划分到小区域类别当中,即存在聚类结果的均匀效应.针对该问题,提出了一种多中心的非平衡K-均值聚类方法(Imbalanced Kmeans clustering method with multiple centers,MCIK).该方法首先对整个训练集进行一次聚类,得到初始聚类结果,并选择与初次聚类结果中任意两类或两类以上的类中心距离相近的样本构成模糊工作集.然后对聚类得到的各类样本进行二次聚类,得到各类样本的子聚类结果,同时根据模糊工作集中样本与每个子聚类中心的距离,对模糊工作集中的样本进行二次归类.该方法有效避免了传统K-均值聚类方法处理非平衡数据聚类问题时的均匀效应.实验结果表明,多中心的非平衡K-均值聚类方法能够有效地处理非平衡数据聚类问题.

  • 出版日期2015
  • 单位太原师范学院