摘要

微博具有信息量庞大,信息分散多样等特点,已经成为快速分享和传播信息的新平台。传统话题发现算法大部分都是基于划分的,没有考虑话题之间的关联性,存在一定的局限性,因此研究了大规模微博文本集上的话题发现问题。采用具有分词准确率较高、歧义识别特点的西南交通大学思维与智慧研究所中文分词系统对文本进行分词处理,并提出了基于混合模型的微博交叉话题发现算法。实验结果表明,该算法具有一定可行性和有效性。