摘要

针对差分隐私K-means聚类算法中心点选取的盲目性以及隐私预算分配不合理导致聚类效果差的问题,对差分隐私K-means算法进行改进。依据初始中心点选取的两个原则,设计一种新的中心点选取方案。依据原始K-means算法中质心与差分隐私K-means算法中质心的均方差,计算每一次迭代需要的隐私预算的最小值,与二分法结合,建立了一种新的隐私预算分配方案。本文通过在三个不同特征数据集上对改进的算法进行对比实验,改进后的算法F-measure值提升14%,不仅降低添加噪声对聚类效果的影响而且保证了聚类效果的可用性。