摘要

传统的K-means算法存在初始质心敏感、需要人为指定K个数等问题,可以通过融合Canopy算法在一定程度上缓解,但是仍然存在抗噪能力弱、质心选择盲目、运算时间长等问题。论文提出了一种改进算法,在抗噪性、初始质心选择、运算过程三方面,对Canopy-K-means算法进行优化。该算法采用了剪枝、"最大最小规则"、相似度计算等策略来实现算法目标。实验数据表明,改进后的Canopy-K-means算法对比传统的Canopy-K-means算法、K-means算法均具有更高的检测率、更低的误报率。