基于LDA-TF-IDF和Word2vec文档表示

作者:彭俊利; 王少泫; 陆正球; 李兴远*
来源:浙江纺织服装职业技术学院学报, 2023, 22(02): 91-96.

摘要

针对自然语言处理中传统文档表示方法上下文语义信息不全,干扰词多等问题,提出了一种基于LDA-TFIDF和Word2vec的文档表示方法。首先对数据集进行分词、去停用词等预处理;其次,利用LDA主题模型和TF-IDF抽取文档中具有表征性的特征词,并计算对应权重;最后,应用数据集训练Word2vec模型获取词向量,并将抽取的特征词权重融入Word2vec词向量构建文档语义向量。通过分类任务对该方法进行验证,实验结果表明,与已有方法相比该方法在垃圾短信数据集上表现效果更佳,验证了方法的有效性。

  • 出版日期2023
  • 单位浙江纺织服装职业技术学院