基于B-DMM的蒙医药文本数据聚类算法研究

作者:包启明; 裴志利*; 姜明洋; 熊露
来源:内蒙古民族大学学报(自然科学版), 2023, 38(02): 124-128.
DOI:10.14045/j.cnki.15-1220.2023.02.006

摘要

为能够更好地了解蒙医药领域研究的热点和前沿,在GPU-DMM主题模型聚类算法的基础上构建一种基于背景主题的B-DMM聚类模型来获取蒙医药文本当中的隐含主题,给未来蒙医药相关研究提供参考。B-DMM模型利用外部知识以及优化生成过程来克服蒙医药短文本数据中存在的单词稀疏性问题。实验中采用主题语义一致性作为模型的评价标准,将结果与LDA、DMM、GPU-DMM、BTM等模型进行对比分析。实验结果表明,B-DMM模型在蒙医药热点主题挖掘方面的表现均优于基线算法,可以为相关研究者提供更有价值的信息。