摘要

为解决基于密度的聚类算法处理大规模数据集效率低和存储开销大的问题,提出一种分片的基于K邻近关系的空间均匀抽样算法作为聚类应用的数据预处理过程,将数据集分片,按密度降序方式去除数据集中部分样本的K邻居,将剩余样本作为抽样样本,在保证精度的同时,可以降低数据规模,提升计算效率.实验结果表明,在数据规模较大且保证聚类结果准确性的前提下,通过降低聚类数据规模,可以有效提升聚类效率.