摘要

对于不平衡分类问题,实现类别交叠区域中样本数目和分布的平衡是缓解后续决策偏移的关键,而现有的不平衡分类方法往往只从少数类样本生成新样本来达到样本数目的平衡,没有充分利用多数类样本丰富的信息。特别是在少数类样本绝对数量过少的情况下,仅利用原始少数类样本信息无法有效平衡交叠区域样本的分布。提出了一种跨类别样本迁移框架下的不平衡分类方法。首先在变分自编码器(Variational Autoencoders, VAE)隐编码采样过程中嵌入由全连接层构建的映射网络,在VAE充分学习不同类别样本的共性和特性的基础上,在隐编码先验约束和跨域一致性约束下对多数类样本的隐编码进行映射转换,使转换前后隐编码共享相同的分布空间,并通过VAE中解码器实现多数类样本向少数类样本的迁移。同时融入生成对抗机制,对原始样本和新样本以及转换前后的隐编码进行判别对抗,进一步提升迁移样本的可靠性。在此基础上,分别对新生成样本与原始不同类别样本的距离进行加权约束,并进行筛选得到更加靠近交叠区域的样本,使该区域不同类别样本的数目和分布更加平衡。在16个公共数据集上的实验结果表明,在F1测量值和G-均值上该方法显著优于10种典型的不平衡分类方法,特别是在11个不平衡比例较高、少数类样本绝对数量过少的公共数据集中,该方法性能提升更加显著。