改进特征权重的短文本聚类算法

马存; 郭锐锋; 高岑; 孙咏

doi:10.15888/j.cnki.csa.006554

摘要

短文本的研究一直是自然语言处理领域的热门话题,由于短文本特征稀疏、用语口语化严重的特点,它的聚类模型存在维度高、主题聚焦性差、语义信息不明显的问题.针对对上述问题的研究,本文提出了一种改进特征权重的短文本聚类算法.首先,定义多因子权重规则,基于词性和符号情感分析构造综合评估函数,结合词项和文本内容相关度进行特征词选择;接着,使用Skip-gram模型(Continuous Skip-gram Model)在大规模语料中训练得到表示特征词语义的词向量;最后,利用RWMD算法计算短文本之间的相似度并将其应用K-Means算法中进行聚类.最后在3个测试集上的聚类效果表明,该算法有效提高了短文本聚类的准确率.

出版日期2018
单位中国科学院沈阳计算技术研究所; 中国科学院大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-04-24 19:36

改进特征权重的短文本聚类算法

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友