摘要

在对标准蚁群算法分析研究基础上,结合中文文本数据的特点,对蚁群算法存在的缺点进行改进,提出一种基于改进的蚁群算法的中文文本聚类方法——ACTC。算法中为每只蚂蚁增加两个记忆体,可以解决原算法中的"未指派现象";模拟信息素,从而使蚂蚁的移动更具目的性,加快聚类速度;引入"边界点"思想,从而不仅可以消除"停滞现象",而且能避免"噪声"或异常数据对聚类结果的负面影响;引入动态调整相似度阈值概念,从而使聚类结果更具实际意义。实验证明,从熵值与纯度两个评价函数评价结果看,该算法的聚类效果较好,达到算法改进的目的。

  • 出版日期2009