摘要

数据流分类在传感器网络、网络监控等实际领域有着广泛的应用,然而,实际数据流中类分布不平衡和类标签大量缺失的问题严重加剧了数据流分类问题求解的难度。因此,针对数据流中类分布不平衡和类标签大量缺失的问题,提出了一种基于距离和采样机制的集成分类方法。该方法首先计算无标签数据与有标签正负类数据块的中心点距离来标记正负类示例,然后通过正类样本的上采样和负类样本的下采样机制重组数据流块以平衡数据块的类分布,并在其上构建集成分类模型。在模拟的具有类分布不平衡的不完全标记数据流上的实验表明,与经典的同类算法相比,所提方法能够在降低不平衡类分布影响的前提下,提高不完全标记数据流的分类精度。