基于单页语义特征的垃圾网页检测

陈木生; 高斐; 吴俊华<sup>*</sup>

doi:10.16157/j.issn.0258-7998.223376

摘要

为解决垃圾网页检测中特征提取难度高、计算量大的问题，提出一种仅基于当前网页的HTML脚本提取语义特征的方法。首先使用深度优先搜索和动态规划相结合的记忆化搜索算法对域名进行单词切割，采用隐含狄利克雷分布提取主题词，基于Word2Vec词向量和词移距离计算3个单页语义相似度特征；然后将单页语义相似度特征融合单页统计特征，使用随机森林等分类算法构建分类模型进行垃圾网页检测。实验结果表明，基于单页内容提取语义特征融合单页统计特征进行分类的AUC值达到88.0%，比对照方法提高4%左右。

出版日期2023
单位江西理工大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-04-27 13:42

基于单页语义特征的垃圾网页检测

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友