摘要
针对文本聚类算法在应用方面存在的"维灾"、簇的命名以及大规模的问题,运用WordNet词典进行词列表的降维和词干化,提出并实现基于词性标注和WordNet相结合的并行文本聚类方法,最后和基于Porter词干化的文本聚类方法进行性能的比较。实验结果表明,该方法能大幅度降低词列表的维度,提高聚类的准确率和召回率,同时增强各个簇的可理解性。
- 出版日期2009
- 单位中国科学院计算机网络信息中心; 中国科学院大学; 中国科学院文献情报中心
针对文本聚类算法在应用方面存在的"维灾"、簇的命名以及大规模的问题,运用WordNet词典进行词列表的降维和词干化,提出并实现基于词性标注和WordNet相结合的并行文本聚类方法,最后和基于Porter词干化的文本聚类方法进行性能的比较。实验结果表明,该方法能大幅度降低词列表的维度,提高聚类的准确率和召回率,同时增强各个簇的可理解性。