摘要

噪声是影响机器学习模型可靠性的重要因素,而标签噪声相比于特征噪声对模型训练更具决定性影响.噪声过滤是处理标签噪声的一种有效方法,它不需要估计噪声率,也不需要依赖任何损失函数,然而目前大多数标签噪声过滤算法都会面临过度清洗问题,针对此问题,本文提出基于异常检测的标签噪声过滤框架,并在此框架下给出了一种自适应近邻聚类的标签噪声过滤算法AdNN(Label Noise Filtering via Adaptive Nearest Neighbor Clustering),该算法分别考虑分类问题中的每一个类别,把标签噪声检测问题转化成离群点检测问题,识别出每一个类别的离群点,然后根据相对密度去除离群点中的非噪声样本得到噪声备选集,最后通过噪声因子对噪声备选集中的离群点进行噪声识别和过滤. 实验结果表明,在合成数据集和公开数据集上,本文提出的噪声过滤方法,可以减轻过度清洗现象,同时能够得到很好的噪声过滤效果和分类预测性能.