改进词向量和kNN的中文文本分类算法

丁正生; 马春洁

doi:10.16652/j.issn.1004-373x.2022.01.019

摘要

为提高中文文本分类的效率和准确率,针对汉字象形字的特点和数据量剧增的大数据背景,建立基于深度学习的中文文本分类算法。首先根据汉字子字符(字形、偏旁、笔画等)象形字即形状自带含义的特点,建立基于子字符和上下文特征的双通道CBOW模型实现中文文本向量化;其次基于大数据的背景,针对传统的kNN算法分类速度慢的缺点,提出一种基于LSC聚类和多目标数据筛选的快速kNN分类算法;最后运用快速kNN算法对文本数据转化的特征词向量数据进行分类。实验结果表明,改进后的中文文本分类算法增加了算法的使用范围,能够更精确地处理中文文本数据,更快地处理大数据问题,在分类速率和效果上都有一定程度的提升。

出版日期2022
单位西安科技大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-03-20 18:29

改进词向量和kNN的中文文本分类算法

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友