摘要

结合SVM和KNN方法改进而成的SVM-KNN分类器,较SVM在准确度上有较大提高.但在处理非平衡语料时,性能反而不如SVM分类器.其基本原理如下:对距超平面较远的数据,SVM-KNN使用SVM进行分类,较近的用KNN分类器.因KNN分类器对包含较多数据的类有偏向性,使得SVM-KNN的分类性能大幅降低.本文就这一缺点提出了改进的方法:在KNN分类的部分,统计出每个类对应的支持向量的数目,加入以支持向量数目的权重进行惩罚,使得偏向性得以校正,F-measure值有较大提高.