短文本主题识别方法和系统

作者:刘业政; 钱洋; 陶丹丹; 姜元春; 毕文亮; 孙见山; 孙春华; 陈夏雨; 凌海峰
来源:2019-04-18, 中国, ZL201910311522.6.

摘要

本发明提供一种短文本主题识别方法和系统,涉及数据处理技术领域。本发明包括以下步骤:S1、获取第一语料集和第二语料集,所述第一语料集为待处理的短文本数据集,所述第二语料集为辅助语料集;S2、基于所述第二语料集上单词得到隐特征向量,基于所述第一语料集构建狄利克雷过程混合模型;S3、基于所述隐特征向量和所述狄利克雷过程混合模型构建非参主题模型;S4、对所述非参主题模型的主题后验分布进行参数推断;S5、基于参数推断识别出第一语料集中主题数量,同时得到第一语料集中文档-主题分布以及主题-词分布。本发明通构建狄利克雷过程混合模型以及引进词的隐特征向量表示,能有效缓解稀疏性问题,从而提高短文本主题识别的准确性。