摘要

在过抽样技术研究中,为了合成较有意义的新样本,提出一种基于聚类的过抽样算法Clustered SMOTE-Boost。过滤小类的噪声样本,将剩余的每个小类样本作为目标样本参与合成新样本。对整个训练集聚类,根据聚类后目标样本所在簇的特点确定其权重及合成个数。将所有目标样本聚类,在目标样本所在的簇内选取K个近邻,并从中任选一个与目标样本合成新样本,使新样本与目标样本簇内的样本尽量相似,并减少由于添加样本而造成的边界复杂度。试验结果表明,Clustered SM OTE-Boost算法在各个度量上均明显优于SM OTE-Boost、ADASYN-Boost和Borderline SM OTE-Boost三种经典算法。

  • 出版日期2018
  • 单位闽南师范大学