改进样本加权K近邻分类器用于垃圾网页检测

吴俊华; 谭博觉; 高切; 陈木生<sup>*</sup>

摘要

针对垃圾网页检测过程中的"维数灾难"和不平衡分类问题,提出一种融合最优Fisher特征选择的样本加权K近邻分类器用于垃圾网页检测。首先,针对训练数据集进行Fisher特征选择,按Fisher Score从大到小排序,依次选择Fisher Score更大的特征对训练数据集进行样本加权的K近邻分类,根据训练数据集分类结果的AUC值是否增加以确定是否保留某个特征,最后基于保留的最优特征子集对测试数据集进行样本加权的K近邻分类。在WEBSPAM UK-2006数据集上的实验表明:该方法明显优于决策树、支持向量机、朴素贝叶斯、K近邻等传统分类器。与其他相关方法相比,该方法在准确率、F1测度和AUC指标上接近最优结果。

出版日期2021
单位江西理工大学

收藏分享被引浏览

更新时间：2024-04-26 16:04

改进样本加权K近邻分类器用于垃圾网页检测

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友