摘要

结合自然邻居搜索算法改进了密度峰值聚类(clustering by fast search and find of density peaks,CFSFDP)算法存在的一系列问题,提出了基于自然邻居搜索优化策略的密度峰值聚类(density peak clustering algorithm optimized by natural neighbor search,NaN-CFSFDP)算法。基于自然邻居搜索算法提出了一种离群样本的检测方法,针对CFSFDP算法中截断距离dc人工准确取值较难的问题,结合自然邻居搜索算法改进了dc的计算方式,实现了dc的自动取值。重新设计并统一了CFSFDP算法的样本密度度量规则,使其更关注每个样本的局部信息。针对数据集中因类簇间的密度差异大,可能导致密度峰值点集中于稠密簇中,从而导致簇丢失的问题,提出了样本共享自然邻居和类簇共享自然邻居的概念,构造新的类簇融合算法。在合成数据集和真实数据集上的试验结果表明,在大多数情况下,该算法在聚类性能上优于或至少与比较方法相当,且与CFSFDP算法及其改进算法相比参数更少。