摘要

LDA模型是一种重要的文档主题生成模型,在描述经典算法思想的基础上,提出一种改进的算法,详细描述了改进算法的实现步骤以及实现过程中需要注意的问题。改进算法使用TF-IDF值代替经典算法词语矢量矩阵中的词频,使用gensim工具包进行仿真实现,从迭代次数、主题数目的不同对模型效果的影响进行研究,得到模型最优的参数组合,改进的算法在性能上由于经典算法,具有一定的应用价值。

  • 出版日期2019