摘要

聚类是对文本信息进行有效组织、摘要和导航的重要手段。K-means算法是非常典型的基于距离的聚类算法,将其用于中文文献聚类,按照内容相似性把一组文献分成几个类并发现其中的隐形知识。本文通过实例,总结了基于Python语言的K-means算法用于中文文献聚类过程,通过CH指标、轮廓系数指标和SSE指标这三个评价指标选取K-means算法的初始聚类簇数,即最优k值的取值范围,然后分别按照基于关键词和基于摘要对文献进行聚类,并对聚类结果进行比较分析,从而得出基于摘要对中文文献进行聚类可以得到更好结果的结论,同一类别中的文献可以进行关键词聚类,从而进一步挖掘其中的隐形知识。

  • 出版日期2019
  • 单位贵州财经大学