摘要

采用传统过采样算法会导致忽略边界样本重要信息、新样本高相似度等问题,本文针对这一问题提出了一种新型的DB-BMCSMOTE方法。首先,该算法用DBSCAN聚类法对少数类聚类,识别并去除噪音后对标签中存在的边界少数样本依概率进行标记。其次,对聚类生成的每一样本簇生成密度函数,计算其密度及采样权重,将各簇中依概率标记的少数样本与较远样本间的中点进行过采样,以提升模型的准确率。实验结果表明,该算法相比其他算法平均提升3.8%,最大为5.92%,并有效应用于信用评价。