面向搜索的微博短文本语义建模方法

作者:寇菲菲; 杜军平*; 石岩松; 杨从先; 崔婉秋; 梁美玉; 石磊
来源:计算机学报, 2020, 43(05): 781-795.

摘要

微博中包含大量具有时间、用户等信息的短文本数据,通过挖掘其语义信息来实现精准搜索已受到广泛关注.将传统的主题模型应用于微博短文本语义建模时通常会存在以下问题.一方面,微博的短文本会引起语义稀疏性;另一方面,由于传统的主题模型仅建模文档之间的信息,不能充分挖掘文档内部的上下文信息,因此其仅能捕获全局语义.针对以上问题,文中提出了面向搜索的微博短文本语义建模方法,该方法包含三部分:基于词向量的短文本扩展算法、基于扩展的微博主题模型和微博搜索.首先,所提扩展算法以具有局部语义的词向量为基础,通过计算单词间相似度对微博短文本进行扩展,以此缓解短文本的语义稀疏性并实现局部语义与全局语义的相互补充.其次,将扩展后的长文本作为所提主题模型的输入所提主题模型,以扩展后的长文本作为输入,通过建模双词进一步克服语义稀疏性,并同时利用微博多种特征(文本、时间、用户信息)来约束主题的生成过程从而提高短文本语义表示的质量.最后,基于生成的统一语义表示,可以计算短文本间相似度从而实现微博搜索.本文在真实的新浪微博数据集上进行了多组实验,对所提的微博短文本语义建模方法语义建模方法得到的语义表示进行了分析与评价并将其应用于微博搜索,实验结果验证了所提方法的有效性.