摘要

现有的数据流分类算法大多需要大量有类别标签的样本来更新分类模型,而标记样本需要一定的代价.针对以上问题,提出了一种基于多代表点的数据流分类算法.新算法首先自动地为每类训练样本建立若干个不同子空间上的代表点模型簇,然后在只标记少量样本真实类别的基础上,通过比较不同时间段对应代表点所在子空间的变化来检测数据流上可能存在的概念漂移,并对分类模型进行更新.此外,算法独立地对各个类别每个子类的代表点模型簇进行更新,这使得算法的分类效果不受数据块大小影响.实验结果表明,在保证分类效果的前提下,新算法大大减少了需要人工标记类别的样本的数量,并且能够及时的检测到概念漂移的发生.