摘要

随着互联网的发展,网络上产生了大量的舆情文本,提取这些文本的主题可以获取舆情的话题热点和演化趋势。由于舆情文本数据量巨大,并且主题具有随时间动态变化的特点,提出一种加入时间约束先验的LDA主题模型TC-LDA(Time Constrained LDA)。TC-LDA可以将文本数据转化为主题向量,大大降低了文本表示的维度,同时加入时间约束知识后实现了LDA的时序化转换,可以提高LDA捕捉动态主题的能力。实验结果表明,TC-LDA在主题词提取的准确率和召回率上与同类主题模型比较,具有更好的效果。