摘要

为了解决微博中存在的话题漂移和大量噪声问题,提出了基于动态话题模型和微博信息熵相结合的流的动态话题模型。首先利用动态话题模型在整个追踪过程,从正反两个方面增强对追踪话题的描述,进一步克服了话题漂移问题。但由于微博中存在大量中间类微博,所以定义并使用微博信息熵来衡量一条微博对于话题报道的重要性,并将其扩展到动态话题模型中,用于区分新闻类和中间类微博。在超过17万用户的1 200万条微博上进行了话题追踪,实验结果表明,本文算法较之传统的动态话题模型更有效,追踪结果包含更少噪声。